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小 范 从 本 科 毕 业 设 计 开 始 写 编译 器 的 实现 代码 ， 为 他 选择 这 个 题目 
的 初 囊 是 希望 把 编译 系统 与 操作 系统 、 计 算 机 体系 结构 相关 的 结合 点 找 
出 来 、 弄 清楚 ， 为 教学 提供 可 用 的 实例 。 本 科 毕 业 设 计 结 束 时 小 范 完成 
了 一 个 最 简单 的 C 语 言 子 集 的 编译 上 蜗 ， 生 成 的 汇编 程序 经 过 汇编 和 链接 
后 可 以 正确 执行 。 研 究 生 期 间 我 们 决定 继续 编译 系统 实现 技术 方向 的 研 
守 工作 ， 主 要 完成 汇编 右 和 链接 器 这 两 大 模块 。 小 范 用 一 颗 好 奇 、 求 知 
的 心 指引 上 自己 ， 利 用 一 切 可 以 搜集 到 的 资料 ， 用 “日 拱 一 革 ” 的 劲头 一 步 
一 步 接近 目标 。 每 天 的 日 子 都 可 能 有 不 同 的 “干扰 一 一 名 企 的 实习 、 发 
论文 、 做 项 目 、 参 加 竞赛 、 考 认证 ， 刁 边 的 同学 在 快速 积攒 各 种 经 历 和 
成 果 的 时 候 ， 小 范 要 保持 内 心 的 平静 ， 专 注 于 工作 量 巨 大 而 是 否 有 回报 
还 未 曾 可 知 的 事情 。 三 年 的 时 间 里 ， 没 有 奖学金 ， 没 有 项 目 经 费 ， 有 的 
古 没完 没 了 的 各 种 问题 ， 各 种 要 看 的 书 、 资 料 和 要 完成 的 代码 ， 同 时 还 
要 关注 大 数据 平台 、 编 程 语言 等 新 技术 的 发 展 。 




















“汇编 器 完成 了 ”链接 器 完成 了 ”， 好 消息 接 贵 而 全 。 小 范 说 , “把 
编译 器 的 代码 重 写 一 下 ， 加 上 代码 优化 吧 ? ”我 说 “好 >?， 其 实 ， 这 
个 “好 ?说 起 来 容易 ， 而 小 范 那里 增加 的 工作 量 可 想 而 知 ， 这 绝 不 是 那么 
轻松 的 事情 。 优 化 的 基本 原理 有 了 ， 怎 么 设计 算法 来 实现 呢 ? 整个 编译 
需 的 文法 比 本 科 毕 业 设计 时 扩充 了 很 多 。 编 译 器 重 写 、 增 加 代码 优化 模 











块 、 完 成 汇编 器 和 链接 器 ， 难 度 和 工作 量 可 想 而 知 。 每 当 小 范 解 决 一 个 
问题 ， 完 成 一 个 功能 ， 束 会 非常 开心 地 与 我 分 享 。 看 小 范 完 成 的 一 行 行 
规范 、 床 之 的 代码 ， 听 他 兴奋 地 讲解 ， 很 难 次 与 听 即 明 的 钢 傅 协奏曲 
《黄河 之 子 》、 德 沃 夏 克 的 《上 自 新 大 陆 》 比 哪 一 个 更 令 人 陶醉 ， 与 听 交 
啊 曲 《 嚼 达 梅 林 》 比 哪 一 个 更 令 人 震撼。 当 小 范 完 成 链接 器 后 ， 我 
次 :“ 小 范 ， 写 书 吧 ， 不 写 下 来 太 可 惜 了 。? 吉 这 样 ， 小 范 再 次 如 一 辆 胃 
新 的 装甲 车 ， 航 隆 前 行 ， 踏 上 了 笔耕 不 轰 的 征程 。2015 年 财 假 ， 细 读 和 
修改 这 部 30 多 万 字 的 书稿 ， 感 慨 万 千 ， 完 成 编译 系统 的 工作 量 、 四 年 的 
甘 否 与 共 、 超 然 物 外 的 孤独 部 在 这 字里行间 跳跃 。 写 完 这 部 原创 书 对 一 
个 年 轻 学 生来 说 是 极 富 挑战 的 ， 但 是 他 完成 了 ， 而 且 完 成 得 如 此 精致 、 
用 心 。 














小 范 来 目 安 徽 的 农村 ， 面 对 生活 中 的 各 种 困惑 、 困 难 ， 他 很 少 有 浊 
丧 、 塌 观 的 情绪 ， 永 远 有 天 然 的 好 奇 心 ， 保 留 独 瑞 童 的 天 真 、 快 乐 与 坦 
率 。 他 开始 写本 书 时 23 岁 ， 完 成 全 书 的 初稿 时 25 岁 。 写 编译 系统 和 操作 
系统 内 核 并 非 难以 企及 ， 只 是 需要 一 份 淡然 、 专 注 和 坚持 。 


如 果 你 想 了 解 计算 机 是 如 何 工作 的 ， 为 什么 程序 会 出 现 不 可 思议 的 
错误 ?局 级 语言 程序 是 如 何 说 翻译 成 机 器 语言 代码 的 ? 编译 器 在 程序 的 
优化 方面 能 做 哪些 工作 ?软件 和 硬件 是 怎么 结合 工作 的 ? 各 种 复杂 的 数 
据 结构 和 算法 ， 包 括 图 论 在 实现 编译 系统 时 如 何 应 用 ? 有 限 日 动机 在 词 
法 分 析 中 的 作用 是 什么 ? 其 程序 又 如 何 实现 ? 那么 本 书 可 以 满足 你 的 好 














奇 心 和 求知 欲 。 如 何 实现 编译 系统 ? 如 何 实现 编译 韦 ? 如 何 实现 汇编 

需 ? 如 何 使 用 符号 表 ? 如 何 结合 操作 系统 加 载 右 的 需要 实现 链接 器 ? 

Intel 的 指令 是 如 何 构 成 的 ? 如何 实 现 不 同 的 编译 优化 算法 ?对 这 些 问 

题 ， 本 书 结合 作者 实现 的 代码 实例 进行 了 详尽 的 阐述 ， 对 提 蜗 程序 员 的 
专业 素质 有 实际 的 助 益 ， 同 时 本 书 也 可 以 作为 计算 机 科学 相关 专业 教师 
的 参考 书 和 编译 原理 实习 类 课程 的 教材 。 








2013 年 在 新 疆 参 加 全 国 操作 系统 和 组 成 原理 教学 研讨 会 时 ， 我 带 着 
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张 琢 声 
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本 书 适 合 谁 读 


本 书 是 一 本 描述 编译 系统 实现 的 书籍 。 这 里 使 用 “编译 系统 ”一 词 ， 
主要 是 为 了 与 市 面 上 描述 编译 器 实现 的 书籍 进行 区 分 。 本 书 描述 的 编译 
系统 不 仪 包含 编译 器 的 实现 ， 还 包括 汇编 器 、 链 接 器 的 实现 ， 以 及 机 器 
旨 令 与 可 执行 文件 格式 的 知识 。 因 此 ， 本 书 使 用 “编译 系统 ”一 词 作为 编 
译 器 、 汇 编 器 和 链接 器 的 统称 。 





本 书 的 目的 是 希望 读者 能 通过 阅读 本 书 清晰 地 认识 编译 系统 的 工作 
流程 ， 并 能 自己 答 试 构造 一 个 完整 的 编译 系统 。 为 了 使 读者 更 容易 理解 
和 学 习 编 译 系 统 的 构造 方法 ， 本 书 将 描述 的 重点 放 在 编译 系统 的 关键 流 
程 上 ， 并 对 工业 化 编译 系统 的 实现 做 了 适当 的 简化 。 如 果 读 者 对 编译 系 
统 实现 的 内 幕 感 兴趣 ， 或 者 想 自 己 动 手 实现 一 个 编译 系统 的 话 ， 本 书 将 


非常 适合 你 阅读 。 


阅读 本 书 ， 你 会 友 现 书 中 的 内 容 与 传统 的 编译 原理 教材 以 及 搬 述 编 
译 器 实现 的 书籍 有 所 人 不同。 本 书 除 了 搬 述 一 个 编译 占 的 有 其 体 实现 外 ， 还 
描述 了 一 般 书籍 较 少 涉及 的 汇编 器 和 链接 器 的 具体 实现 。 而 且 本 书 并 
非 “ 纸 上 谈 兵 "， 在 讲述 每 个 功能 模块 时 ， 书 中 都 会 结合 具体 实现 代码 来 








阐述 模块 功能 的 实现 。 通 过 本 书 读者 将 会 学 习 如 何 使 用 有 限 目 动 机 构造 
词法 分 析 器 ， 如 何 将 文法 分 析 算 法 应 用 到 语法 分 析 过 程 ， 如 何 使 用 数据 
流 分 析 进 行 中 间 代 码 的 优化 ， 如 何 生成 合法 的 汇编 代码 ， 如 何 产 生 二 进 
制 指令 信息 ， 如 何在 链接 器 内 进行 符号 解 林 和 重 定位 ， 如 何 生成 目标 文 
件 和 可 执行 文件 等 。 





本 书 的 宗旨 是 为 意欲 了 解 或 杀 目 实现 编译 系统 的 读者 提供 指导 和 大 
助 。 尤 其 是 计算 机 专业 的 读者 ， 通 过 目 己 动 手写 出 一 个 编译 系统 ， 能 加 
强 读者 对 计算 机 系统 从 软件 层次 到 硬件 层次 的 理解 。 同 时 ， 深 入 挖掘 技 
术 幕 后 的 秘密 也 是 对 专业 兴趣 的 一 种 良好 培养 。GCC 本 和 映 是 一 套 非常 完 
善 的 工业 化 编译 系统 虽然 我 们 习惯 上 称 它 为 编译 占 〉， 然 而 单 赁 个 人 
之 力 无 法 做 到 像 GCC 这 样 完善 ， 而 且 很 多 时 候 是 没有 必要 做 出 一 个 工程 
化 的 编译 器 的 。 本 书 试图 帮助 读者 深入 理解 编译 的 过 程 ， 并 能 按照 书 中 
的 指导 实现 一 个 能 正常 工作 的 编译 器 。 在 目 己 杀 目 动手 实现 一 个 编译 系 
统 的 过 程 中 ， 读 者 获得 的 不 仅仅 是 软件 开发 的 经 历 。 在 开发 编译 系统 的 
过 程 中 ， 读 者 还 会 学 习 很 多 与 底层 相关 的 知识 ， 而 这 些 知识 在 一 般 的 专 
业 教 材 中 很 少 涉及 。 

















如 果 读者 想 了 解 计 算 机 程序 底层 工作 的 奥秘 ， 本 书 能 够 解答 你 内 心 
的 疑惑 。 如 果 读 者 想 自 定义 一 种 高 级 语言 ， 并 希望 使 该 语言 的 程序 在 计 
算 机 上 正常 运行 ， 本 书 能 帮助 你 较 快 地 达到 目的 。 如 果 读 者 想 从 实现 一 
个 编译 占 的 过 程 中 ， 加 强 对 编译 系统 工作 流程 的 理解 ， 并 和 演 试 深入 研究 





GCC 源码 ， 本 书 也 能 为 你 提供 很 多 有 价值 的 参考 。 


基础 知识 储备 


本 书 尽 可 能 地 不 要 求 读者 有 太 多 的 基础 知识 准备 ， 但 是 编译 理论 属 
于 计算 机 学 科比 较 深 层次 的 知识 领域 ， 难 免 对 读者 的 知识 储备 有 所 要 
求 。 本 书 的 编译 系统 是 基于 Linux x86 平 台 实 现 的 ， 因 此 要 求 读者 对 
Linux 坏 境 的 C/C++ 编程 有 所 了 解 。 男 外 ， 理 解 汇编 器 的 实现 内 容 需 要 读 
者 对 x86 的 汇编 指令 编程 比较 熟悉 。 本 书 不 会 描述 过 多 编译 原理 教材 中 
涉及 的 内 容 ， 所 以 要 求 读者 具备 编译 原理 的 基础 知识 。 不 过 读者 不 必 过 
于 担心 ， 本 书 会 按照 循序 渐进 的 方式 描述 编译 系统 的 实现 ， 在 具体 的 章 
节 中 会 将 编译 系统 实现 的 每 个 细节 以 及 所 需 的 知识 图 述 清楚 。 





第 1 章 ”代码 背后 


从 程序 设计 开始 ， 追 调 代 码 背 后 的 细节 ， 引 出 编译 系统 的 概念 。 


第 2 章 ”编译 系统 设计 


按照 编译 系统 的 工作 流程 ， 介 绍 本 书 编译 系统 的 设计 结构 。 


第 3 章 ”编译 器 构造 





描述 如 何 使 用 有 限 目 动机 识别 目 定义 高 级 语言 的 词法 记号 ， 如 何 使 
用 文法 分 析 算 法 识别 程序 的 语法 模块 ， 如 何 对 局 级 语言 上 下 文 相关 信息 
进行 语义 合法 性 检查 ， 如 何 使 用 语法 制导 翻译 进行 代码 生成 ， 以 及 编译 
需 工 作 时 符号 信息 的 管理 等 。 











第 4 章 ”编译 优化 


介绍 中 间 代 码 的 设计 和 生成 ， 如 何 利用 数据 流 分 析 实 现 中 间 代 码 优 
化 ， 如 何 对 变量 进行 寄存 器 分 配 ， 目 标 代码 生成 阶段 如 何 使 用 蜂 孔 优化 
虱 对 目标 代码 进行 优化 。 














第 5 章 ” ”二进制 表示 


描述 Intel x86 指 令 的 基本 格式 ， 并 将 AT&T 汇 编 与 Intel 汇 编 进行 对 
比 。 描 述 ELF 文 件 的 基本 格式 ， 介 绍 ELF 文 件 的 组 织 和 操作 方法 。 


第 6 草 ”汇编 强 构 造 


描述 汇编 器 词法 分 析 和 语法 分 析 的 实现 ， 介 绍 汇编 器 如 何 提取 目标 
文件 的 主要 表 信 息 ， 并 描述 x86 二 进 制 指令 的 输出 方法 。 





第 7 章 ” 链接 器 构造 


介绍 如 何 为 可 重 定位 目标 文件 的 段 进行 地 址 空间 分 配 ， 描 述 链接 器 
符号 解析 的 流程 ， 以 及 符号 地 址 的 计算 方法 ， 并 介绍 重 定 位 在 链接 髓 中 
的 实现 。 





随 书 源码 


本 书 实现 的 编译 系统 代码 已 经 托管 到 github， 源 码 可 以 使 用 GCC 
5.2.0 编 译 通过 。 代 码 的 github 地 址 是 https://github.com/fanzhidongyzby/cit 
。 代 码 分 支 x86 实 现 了 基于 Intel x86 体 系 结构 的 编译 器 、 汇 编 器 和 链接 
器 ， 编 译 系统 生成 的 目标 文件 和 可 执行 文件 都 是 Linux 下 标准 的 ELE 文 件 
格式 。 代 码 分 支 arm 实 现 了 基于 ARM 体 系 结构 的 编译 器 ， 目 前 支持 生成 
ARM 7 的 汇编 代码 。 


第 1 章 ”代码 背后 


知 其 然 ， 并 知 其 所 以 然 。 


一 一 《朱子 语 类 》 


1.1 ”从 编程 聊 起 


说 起 编程 ， 如 果 有 人 问 我 们 敲 进 计算 机 的 第 一 段 代码 是 什么 ， 相 信 
很 多 人 会 说 出 同一 个 答案 一 一 “Hello World! ”。 编 程 语言 的 教材 一 般 都 
会 把 这 段 代码 作为 书 中 的 第 一 个 例子 呈现 给 读者 。 当 我 们 按照 读本 或 者 
老师 的 要 求 把 它 输 入 到 开发 环境 ， 然 后 单 击 “ 编 译 ” 和 “运行 ”按钮 ， 映 入 
眼帘 的 那 行 字符 串 定 会 令 人 欣喜 不 已 ! 然而 激动 过 后 ， 一 股 强烈 的 好 奇 
心 可 能 会 驱使 我 们 去 弄 清 一 个 新 的 概念 一 一 编译 是 什么 ? 











遗憾 的 是 ， 一 般 教 授 编程 语言 的 老师 不 会 介绍 太 多 关于 它 的 内 容 ， 
最 多 会 告诉 我 们 :代码 只 有 经 过 编译 ， 才 能 在 计算 机 中 正确 执行 。 随 关 
知识 和 经 验 的 不 断 积累 ， 我 们 逐渐 了 解 到 当初 单 击 “ 编 详 ” 按 钮 的 时 候 ， 
计算 机 在 幕后 做 了 一 系列 的 工作 。 它 先 对 源 代码 进行 编译 ， 生 成 二 进 制 
目标 文件 ， 然 后 对 目标 文件 进行 链接 ， 最 后 生成 一 个 可 执行 文件 。 即 便 
如 此 ， 我 们 对 编译 的 流程 也 只 有 一 个 模糊 的 认识 。 











直到 学 习 了 编译 原理 ， 才 发 现 编译 髓 原来 就 是 语言 翻译 程序 ， 它 把 
高 级 语言 程序 翻译 成 低级 汇编 语言 程序 。 而 汇编 语言 程序 是 不 能 被 计算 
机 直接 识别 的 ， 必 须 徘 汇编 占 把 它 翻译 为 计算 机 人 硬件 可 识别 的 机 器 语言 
程序 。 而 根据 之 前 对 目标 文件 和 链接 器 的 了 解 ， 我 们 可 能 猜测 到 机 器 语 
言 应 该 是 按照 二 进 制 的 形式 存储 在 目标 文件 内 部 的 。 可 是 目标 文件 到 底 














包含 什么 ， 链 接 后 的 可 执行 文件 里 义 有 什么 ?问题 貌似 越 来 越 多 。 








图 1-1 展 示 了 编译 的 大 致 工作 流程 ， 相 信 拥 有 一 定编 程 经 验 的 人 ， 
对 该 图 所 表达 的 含义 并 不 陌生 。 为 了 让 源 代 码 能 正常 地 运行 在 计算 机 
上 上， 计算 机 对 代码 进行 了 “繁复 ”的 处 理 。 可 是 ， 编 译 器 既然 是 语言 翻译 
程序 ， 为 什么 不 把 源 代码 直接 翻译 成 机 器 语言 ， 却 还 要 经 过 汇编 和 链接 








风声 


二 进 制 目标 文件 





汇编 代码 





可 执行 文件 
链接 器 





图 1-1 编译 的 流程 





似乎 我 们 解决 了 一 些 疑 惑 后 ， 忆 是 会 有 更 多 的 疑惑 接 中 而 来 。 但 也 
正 是 这 些 层 出 不 穷 的 疑惑 ， 促 使 我 们 不 断 地 探究 简单 问题 背后 的 复杂 机 
制 。 当 挖掘 出 这 些 表 象 下 窗 盖 的 问题 本 质 时 ， 可 能 比 首次 痪 出 “Hello 
World! ”程序 时 还 要 喜 避 。 在 后 面 的 章节 中 ， 将 会 逐步 探讨 编译 背后 的 
本 质 ， 将 谜团 一 一 揭 开 ， 最 终 读 者 目 己 可 动手 构造 出 本 书 所 实现 的 编译 
系统 一 一 编译 器 、 汇 编 器 与 链接 器 ， 真 正 做 到 “ 知 其 然 ， 并 知 其 所 以 
然 ”。 

















1.2 ”历史 渊源 


历史 上 很 多 新 鲜 事物 的 出 现 都 不 是 偶然 的 ， 计 算 机 学 科 的 技术 和 知 
识 如 此 ， 编 译 系统 也 不 例外 ， 它 的 产生 来 源 于 编程 工作 的 需求 。 编 程 本 
质 上 是 人 与 计算 机 交流 ， 人 们 使 用 计算 机 解决 问题 ， 必 须 把 问题 转化 为 
计算 机 所 能 理解 的 方式 。 当 问题 规模 逐渐 增 大 时 ， 编 程 的 劳动 量 自然 会 
变 得 繁重 。 编 译 系统 的 出 现在 一 定 程度 上 降低 了 编程 的 难度 和 复杂 度 。 








在 计算 机 刚刚 诞生 的 年 代 ， 人 们 只 能 通过 二 进 制 机 器 指令 指挥 计算 
机 工作 ， 计 算 机 程序 是 依靠 人 工 拨 动 计算 机 控制 面板 上 的 开关 被 输入 到 
计算 机 内 部 的 。 后 来 人 们 想到 使 用 穿孔 卡片 来 代 蔡 原始 的 开关 输入 ， 用 
卡片 上 穿孔 的 有 无 表示 计算 机 世界 的 “0”* 和 “1”， 让 计算 机 自动 读 取 和 穿孔 
卡片 实现 程序 的 录入 ， 这 里 录入 的 指令 束 是 沼 说 的 二 进 制 代码 。 然 而 这 
种 编程 工作 在 现在 看 起 来 简直 束 古 一 个 “ 吕 梦 ”， 因 为 一 旦 穿孔 卡片 的 制 
作出 现 错误 ， 所 有 的 工作 都 要 重新 来 过 。 


























人 们 很 快 束 发 现 了 使 用 二 进 制 代码 控制 计算 机 的 不 足 ， 因 为 人 工 输 
入 二 进 制 指令 的 错误 率 实 在 太 高 了 。 为 了 解决 这 个 问题 ， 人 们 用 一 系列 
简单 明了 的 助 记 符 代 蔡 计 算 机 的 二 进 制 指令 ， 即 我 们 熟知 的 汇编 语言 。 
可 是 计算 机 只 能 识别 二 进 制 指令 ， 因 此 需要 一 个 已 有 的 程序 自动 完成 汇 
编 语言 到 二 进 制 指令 的 翻译 工作 ， 于 是 汇编 器 就 产生 了 。 程 序 员 只 需要 




















写 出 汇编 代码 ， 然 后 交 给 汇编 器 进行 翻译 ， 生 成 二 进 制 代码 。 因 此 ， 汇 
编 器 将 程序 员 从 烦琐 的 二 进 制 代 码 中 解脱 出 来 。 


使 用 汇编 器 提高 了 编程 的 效率 ， 使 得 人 们 有 能 力 处 理 更 复兴 的 计算 
问题 。 随 着 计算 问题 复杂 度 的 提高 ， 编 程 中 出 现 了 大 量 的 重复 代码 。 人 
们 不 愿意 进行 重复 的 劳动 ， 于 是 就 想 办 法 将 公共 的 代码 提取 出 来 ， 汇 编 
成 独立 的 模块 存储 在 目标 文件 中 ， 甚 至 将 同一 类 的 目标 文件 打包 成 库 。 
由 于 原本 写 在 同一 个 文件 内 的 代码 被 分 割 到 多 个 文件 中 ， 那 么 最 终 还 需 
要 将 这 些 分 离 的 文件 拼装 起 来 形成 完整 的 可 执行 代码 。 但 是 事情 并 没有 
那么 简单 ， 由 于 文件 的 模块 化 分 割 ， 文 件 间 的 符 写 可 能 会 相互 引用 。 人 
们 需要 处 理 这 些 引 用 关系 ， 重 新 计算 符号 的 引用 地 址 ， 这 融 是 链接 器 的 
基本 功能 。 链 接 器 使 得 计算 机 能 目 动 把 不 同 的 文件 模块 准确 无 误 地 拼接 
起 来 ， 使 得 代码 的 复 用 成 为 可 能 。 


























图 1-2 描 述 的 链接 方式 称 为 静态 链接 ， 但 这 种 方式 也 有 不 足 之 处 。 
静态 链接 右 把 公用 库 内 的 目标 文件 合并 到 可 执行 文件 内 部 ， 使 得 可 执行 
文件 的 体积 变 得 庞大 。 这 样 做 会 导致 可 执行 文件 版 本 难以 更 新 ， 也 导致 
了 多 个 程序 加 载 后 相同 的 公用 库 代 码 占 用 了 多 份 内 存 空间 。 为 了 解决 上 
述 的 问题 ， 现 代 编 译 系 统 都 引入 了 动态 链接 方式 〈 见 图 1-3) 。 动 态 链 
接 嚣 不 会 把 公用 库 内 的 目标 文件 合并 到 可 执行 文件 内 ， 而 仅仅 记录 动态 
链接 库 的 路 径 信息 。 它 人 允许 程序 运行 前 才 加 载 押 需 的 动态 链接 库 ， 如 宋 
该 动态 链接 库 已 加 载 到 内 存 ， 则 不 需要 重复 加 载 。 男 外 ， 动 态 链接 器 也 




















允许 将 动态 链接 库 的 加 载 延 迟到 程序 执行 库 函 数 调 用 的 那 一 刻 。 这 样 

做 ， 不 仅 市 约 了 磁盘 和 内 存 空间 ， 还 方便 了 可 执行 文件 版 本 的 更 新 。 如 
果 应 用 程序 模块 设计 合理 的 话 ， 程 序 更 新 时 只 需要 更 新 模块 对 应 的 动态 
链接 库 即 可 。 当 然 ， 动 态 链 接 的 方式 也 有 缺点。 运行 时 链接 的 方式 会 增 
加 程序 执行 的 时 间 开 销 。 另 外 ， 动 态 链接 库 的 版 本 错误 可 能 会 导致 程序 
无 法 执行 。 由 于 静态 链接 和 动态 链接 的 基本 原理 类 似 ， 且 动态 链接 器 的 
实现 相对 复杂 ， 因 此 本 书 编译 系统 所 实现 的 链接 占 采 用 静态 链接 的 方 

二 












图 1-2” 靛 态 链 接 


Case 万 ……、 依 赖 





图 1-3 ”动态 链接 





汇编 圳 和 链接 器 的 出 现 大 大 提高 了 编程 效率 ， 降 低 了 编程 和 维护 的 
难度 。 但 是 人 们 对 汇编 语言 的 能 力 并 不 满足 ， 有 人 设想 要 是 能 像 写 数学 
公式 那样 对 计算 机 编程 就 太 方便 了 ， 于 是 就 出 现 了 如 今 形形色色 的 高 级 
编程 语言 。 这 样 就 面临 与 当初 汇编 右 产 生 时 同样 的 问题 一 一 如 何 将 高 级 
语言 翻译 为 汇编 语言 ， 这 正 是 编译 圳 所 做 的 工作 。 编 译 器 比 汇编 器 复杂 
得 多 。 汇 编 语言 的 语法 比较 单一 ， 它 与 机 露 语 言 有 基本 的 对 应 关系 。 而 
高 级 语言 形式 比较 目 由 ， 计 算 机 识别 高 级 语言 的 合 义 比较 困难 ， 而 且 它 
的 语句 翻译 为 汇编 语言 序列 时 有 多 种 选择 ， 如 何 选择 更 好 的 序列 作为 翻 
译 结 条 也 是 比较 困难 的 ， 不 过 最 终 这 些 问题 都 得 以 解决 。 高 级 语言 编译 
强 的 出 现 ， 实 现 了 人 们 使 用 简洁 易 懂 的 编程 语言 与 计算 机 交流 的 目的 。 
































1.3 GCC 的 工作 流程 


在 着 手 构造 编译 系统 之 前 ， 需 要 先 介绍 编译 系统 应 该 做 的 事情 ， 而 
最 具 参 考 价值 的 资料 束 是 主流 编译 占 的 实现 。GNU 的 GCC 编 译 占 是 工 
业 化 编译 器 的 代表 ， 因 此 我 们 先 了 解 GCC 都 在 做 什么 。 


我 们 写 一 个 最 简单 的 *HellowWorld” 程 序 ， 代 码 存储 在 源 文件 hello.c 
中 ， 源 文件 内 容 如 下 : 





#include<stdio.h> 

int main() 

{ 
printf("Hello World!"); 
return 0; 


} 








如 果 将 hello.c 编 译 并 静态 链接 为 可 执行 文件 ， 使 用 如 下 gcc 命 令 直 接 
编译 即 可 : 





$gcc hello.c - 


0 hello -static 





hello 即 编译 后 的 可 执行 文件 。 


如 果 碍 看 GCC 背后 的 工作 流程 ， 可 以 使 用 --verbose 选 项 。 





$gcc hello.c - 


0 hello - 


static --verbose 





输出 的 信息 如 下 : 





$cc1 -quiet hello.c -0 hello.s 

$as -0 hello.o hello.s 

$collect2 -static -o hello \ 
crti.o crti.o crtbeginT.o hello.o \ 
--Start-group libgcc.a libgcc eh.a libc.a --end-group \ 
crtend.o crtn.o 





为 了 保持 输出 信息 的 简洁 ， 这 里 对 输出 信息 进行 了 整理 。 可 以 看 
出 ，GCC 编 译 背 后 使 用 了 ccl1、as、collect2 三 个 命令 。 其 中 ccl 是 GCC 的 
编译 器 ， 它 将 源 文件 hello.c 编 译 为 hello.s。as 是 汇编 器 命令 ， 它 将 hello.s 
汇编 为 hello.o 目 标 文件 。collect2 是 链接 器 命令 ， 它 是 对 命令 ld 的 封装 。 
静态 链接 时 ，GCC 将 C 语 言 运 行 时 库 〈CRT) 内 的 5 个 重要 的 目标 文件 
crt1.0、crti.o、crtbeginT.o、crtend.o、crtn.0 以 及 3 个 静态 库 libgcc.a、 
libgcc_eh.a、libc.a 链 接 到 可 执行 文件 hello。 此 外 ，ccl 在 对 源 文 件 编译 之 
前 ， 还 有 预 编译 的 过 程 。 





因此 ， 我 们 从 预 编译 、 编 译 、 汇 编 和 链接 四 个 阶段 查看 GCC 的 工作 


细 古 。 


1.3.1 ” 预 编译 


GCC 对 源 文件 的 第 一 阶段 的 处 理 是 预 编译 ， 主 要 是 人 处理 宏 定义 和 文 
件 包 含 等 信息 。 命 令 格式 如 下 : 








$gcc - 


E hello.c - 


0 hello.i 





预 编译 堪 将 hello.c 处 理 后 输出 到 文件 hello.i，hello.i 文 件 内 容 如 下 : 





"hello.c" 
"<built-in>" 
"<command-line>" 
"hello.c".... 


extern int printf (const char *__restrict _ format, ...);.. 


int main() 


printf("Hello World!"); 
return 0) 





比如 文件 包含 语句 include<stdio.h>， 预 编译 器 会 将 stdio.h 的 文件 内 
容 拷贝 到 #nclude 语 句 声 明 的 位 置 。 如 果 源 文件 内 使 用 #define 语 句 定义 
了 宏 ， 预 编译 器 则 将 该 宏 的 内 容 蔡 换 到 其 被 引用 的 位 置 。 如 果 宏 定义 本 
身 使 用 了 其 他 宏 ， 则 预 编译 器 需要 将 宏 递归 地 展开 。 


我 们 可 以 将 预 编 译 的 工作 简单 地 理解 为 源码 的 文本 替换 ， 即 将 宏 定 
义 的 内 容 答 换 到 宏 的 引用 位 置 。 当 然 ， 这 样 理解 有 一 定 的 片面 性 ， 因 为 
要 考虑 宏 定义 中 使 用 其 他 宏 的 情况 。 事 实 上 预 编译 器 的 实现 机 制 和 编译 
器 有 着 很 大 的 相似 性 ， 因 此 本 书 描述 的 编译 系统 将 重点 放 在 源 代 码 的 纺 
译 上 ， 不 再 独立 实现 预 编译 器 。 然 而 ， 我 们 需要 清楚 的 事实 是 : 一 个 完 


善 的 编译 器 是 需要 预 编 译 器 的 。 





1.3.2 ”编译 


接 下 来 GCC 对 hello.i 进 行 编译 ， 命 令 如 下 : 





$gcc - 


S hello.i - 


0 hello.s 





编译 后 产生 的 汇编 文件 hello.s 内 容 如 下 : 





.file "hello.c" 
.Section .rodata 
.LCO: 
.String 
"Hello World!" 
.text 
.globl main 
.type main, @functionmain: 
push1l %ebp 
movl %esp, %ebp 
andl $-16, %esp 
subl $16, %esp 
movl $.LCO, %eax 
movl %eax, (%esp) 
call 
printf 
movl $0, %eax 
leave 
ret 
.Size main, .-main 
.ident "GCC: (Ubuntu/Linaro 4.4.4-14ubuntu5) 4.4.5" 


.Section .Note.GNU-stack,"",@progbits 





GCC 生成 的 汇编 代码 的 语法 是 AT&T 格 式 ， 与 Intel 格 式 的 汇编 有 所 
不 同 〈 若 要 生成 Intel 格 式 的 汇编 代码 ， 使 用 编译 选项 <-masm=intel” 即 
可 ) 。 比 如 立即 数 用 “$” 前 经， 寄存 器 用 “%” 前 级 ， 内 存 寻 址 使 用 小 括号 
等 。 区 别 最 大 的 是 ，AT&T 汇 编 指令 的 源 操作 数 在 前 ， 目 标 操 作 数 在 
后 ， 这 与 Intel 汇 编 语法 正好 相反 。 本 书 会 在 后 续 章节 中 详细 描述 这 两 种 
汇编 语法 格式 的 区 别 。 





不 过 我 们 仍 能 从 中 发 现 高 级 语言 代码 中 传递 过 来 的 信息 ， 比 如 字符 
串 “Hello World! ”、 主 函数 名 称 main、 函 数 调用 call printf 等 。 


1.3.3 汇编 


接着 ，GCC 使 用 汇编 器 对 hello.s 进 行 汇编 ， 命 令 如 下 : 





$gcc - 


c hello.s - 


0 hello.o 





生成 的 目标 文件 hello.o，Linux 下 称 之 为 可 重 定位 目标 文件 。 目 标 文 
件 无 法 使 用 文本 编辑 器 直接 查看 ， 但 是 我 们 可 以 使 用 GCC 自 市 的 工具 
objdump 命 令 分 析 它 的 内 容 ， 命 令 格 式 如 下 : 











$objdump - 


sd hello.o 





输出 目标 文件 的 主要 上 段 的 内 容 与 反 汇编 代码 如 下 : 





hello.o: file format elf32-i386 

Contents of section .text: 

0000 5589e583 ee4f083ec 10b80000 ©00008904 U.,,,，....，.，，，，，， 

0010 24e8fcff ffffb800 000000c9 cc3 $B Contents of section .rc 


0000 48656c6c 6f20576f 726c6421 00 


Hello World!. 


Contents of section .comment: 
0000 00474343 3a202855 62756e74 752f4c69 .GCC: (Ubuntu/Li 
0010 6e61726f 20342e34 2e342d31 34756275 naro 4.4.4-14ubu 
0020 6e747535 2920342e 342e3500 ntu5) 4.4.5. 


Disassembly of section .text:00000000 <main>: 


0: 55 push %ebp 
1: 89 e5 mov %esp,%ebp 
3 83 e4 f0 and $0Oxfffffffo, 
6: 83 ec 10 sub $0x10, %esp 
9 : 
b8 00 00 00 00 
mov 
$0x0 
, %eax 
e: 89 04 24 mov %eax, (%esp) 
11: 
e8 fc ff ff ff 
call 
12 <main+0Ox12> 
16: b8 00 00 00 00 mov $0OxO, %eax 
1b: c9 leave 
1c: C3 ret 





从 数据 段 二 进 制 信息 的 ASCII 形 式 的 显示 中 ， 我 们 看 到 了 汇编 语言 
内 定义 的 字符 串 数据 “Hello World! ”。 代 码 段 的 信息 和 汇编 文件 代码 信 
息 基本 吻合 ， 但 是 我 们 发 现 了 很 多 不 同 之 处 。 比 如 汇编 文件 内 的 指 
令 “movl$.LC0，%eax” 中 的 符号 .LC0 的 地 址 (字符 串 “Hello World! ”的 
地 址 ) 被 换 成 了 0。 指 令 “call printf” 内 符号 printf 的 相对 地 址 被 换 成 了 
Oxfffffffc， RHcall 指 令 操作 数 部 分 的 起 始 地 址 。 





这 些 区 别 本 质 来 源 于 汇编 语言 符号 的 引用 问题 。 由 于 汇编 占 在 处 理 
当前 文件 的 过 程 中 无 法 获悉 符号 的 虚拟 地 址 ， 因 此 临时 将 这 些 符号 地 址 
设置 为 默认 值 0， 真 正 的 符号 地 址 只 有 在 链接 的 时 候 才 能 确定 。 


1.3.4 ”链接 


使 用 GCC 命令 进行 目标 文件 链接 很 简单 : 





gcc hello.o - 


0 hello 





GCC 默认 使 用 动态 链接 ， 如 有 果 要 进行 静态 链接 ， 需 加 上 -static 选 
项 : 


AN。 





gcc hello.o - 


0 hello - 


static 





这 样 生成 的 可 执行 文件 hello 便 能 正常 执行 了 。 


我 们 使 用 objdump 命 令 查 看 一 下 静态 链接 后 的 可 执行 文件 内 的 信 
晨 。 由 于 可 执行 文件 中 包含 了 大 量 的 C 语 言 库 文件 ， 因 此 这 里 不 便 将 文 
件 的 所 有 信息 展示 出 来 ， 仪 显示 最 终 main 函 数 的 可 执行 代码 。 








©080482c0 <main>: 


80482c0 : 55 push %ebp 
80482c1: 89 e5 mov %esp,%ebp 
80482c3 : 83 e4 f0 and $0Oxfffffff0,%esr 


80482c6 : 83 ec 10 Sub $0x10, %esp80482c 


b8 28 e8 0a 08 


MoV 


$0x80ae828, 


%eax 


80482ce : 89 04 24 mov %eax, (%esp)8048: 


e8 fa 0a 00 00 


call 


8048dd0 <_IO_printf> 


80482d6 : b8 00 00 00 00 mov $0x0, %eax 
80482db: c9 leave 
80482dc : C3 ret 





从 main 函 数 的 可 执行 代码 中 ， 我 们 发 现汇 编 过 程 中 描述 的 无 法 确定 
的 符号 地 址 信息 在 这 里 都 被 修正 为 实际 的 符号 地 址 。 如 “Hello 
World! ”字符 串 的 地 址 为 0x080ae828，printf 函 数 的 地 址 为 0x08048dd0。 
这 里 符号 _IO_printf 与 printf 完 全 等 价 ，call 指 令 内 部 相对 地 址 为 
0x000afa， 正 好 是 printf 地 址 相对 于 call 指 令 下 条 指令 起 始 地 址 
0x080482d6 的 偏 移 。 


1.4 设计 自己 的 编译 系统 


根据 以 上 描述 ， 我 们 意欲 构造 一 个 能 将 高 级 语言 转化 为 可 执行 文件 
的 编译 系统 。 高 级 语言 语法 由 我 们 自己 定义 ， 它 可 以 是 C 语 言语 法 ， 也 
可 以 是 它 的 一 个 子 集 ， 但 是 无 论 如 何 ， 该 高 级 语言 由 我 们 根据 编程 需要 
自行 设计 。 另 外 ， 我 们 要 求生 成 的 可 执行 文件 能 正常 执行 ， 无 论 它 是 
Linux 系 统 的 ELF 可 执行 文件 ， 还 是 windows 系 统 的 PE 文件 ， 而 本 书 选 择 
生成 Linux 系 统 的 ELF 可 执行 文件 。 正 如 本 章 开始 所 描述 的 ， 我 们 要 做 的 
就 是 : 自己 动手 完成 当初 单 击 “ 编 译 ” 按 钮 时 计算 机 在 背后 做 的 事情 。 








然而 在 真正 开工 之 前 ， 我 们 需要 承认 一 个 事实 一 一 我 们 是 无 法 实现 
一 个 像 GCC 那 样 完善 的 工业 化 编译 器 的 。 因 此 必须 降低 编译 系统 实现 的 
复杂 度 ， 确 保 实 际 的 工作 在 可 控 的 范围 内 。 本 书 对 编译 系统 的 实现 做 了 
如 下 修改 和 限制 : 


1) 预 编译 的 处 理 。 如 前 所 述 ， 预 编译 作为 编译 前 期 的 工作 ， 其 主 
要 的 内 容 在 于 宏 命 令 的 展开 和 文本 莹 换 。 本 质 上 ， 预 编译 占 也 需要 识别 
源 代 码 语义 ， 它 与 编译 器 实现 的 内 容 十 分 相似 。 通 过 后 面 章节 对 编译 器 
实现 原理 的 介绍 ， 我 们 也 能 学 会 如 何 构造 一 个 简单 的 预 编 译 器 。 因 此 ， 
在 高 级 语言 的 文法 设计 中 ， 本 书 未 提供 与 预 编译 处 理 相关 的 语法 ， 而 是 
直接 对 源 代 码 进行 编译 ， 这 样 使 得 我 们 的 精力 更 关注 于 编译 器 的 实现 细 








2) 一 所 编译 的 方式 。 编 译 圳 的 设计 中 可 以 对 编译 需 的 每 个 模块 独 
立 设 计 ， 比 如 词法 分 析 需 、 语 法 分 析 器 、 中 间 代 码 优化 喜 等 。 这 样 做 可 
能 需要 对 源 代码 进行 多 这 的 扫描 ， 虽 然 编 译 效 率 相 对 较 低 ， 但 是 获得 的 
源码 语义 信息 更 完善 。 我 们 设计 的 编译 系统 目标 非常 直接 一 一 保证 编 详 
系统 得 出 正确 的 可 执行 文件 即 可 ， 因 此 采用 一 过 编译 的 方式 会 更 高 效 。 


3) 高 级 语言 语法 。 为 了 方便 大 多 数 读者 对 文法 分 析 的 理解 ， 我 们 
参考 C 语 言 的 语法 格式 设计 目 己 的 高 级 语言 。 不 完全 实现 C 语 言 的 所 有 
语法 ， 不 仅 可 以 减少 重复 的 工作 量 ， 还 能 将 精力 重点 放 在 编译 算法 的 实 
现 上 ， 而 不 是 复杂 的 语言 语法 上 。 因 此 在 C 语 言 的 基础 上 ， 我 们 删除 了 
浮 点 类 型 和 struct 类 型 ， 并 将 数组 和 指针 的 维 数 简化 到 一 维 。 




















4) 编译 优化 算法 。 编 译 占 内 引入 了 编译 优化 相关 的 内 容 ， 考 虑 到 
编译 优化 算法 的 多 样 性 ， 我 们 挑选 了 在 干 经 典 的 编译 优化 算法 作为 优化 
融 的 实现 。 通 过 对 数据 流 问 题 优 化 算法 的 实现 ， 可 以 帮助 理解 优化 器 的 
工作 原理 ， 对 以 后 深入 学 习 编 译 优化 算法 具有 引导 意义 。 


5) 汇编 语言 的 处 理 。 本 书 的 编译 器 产生 的 汇编 指令 属于 Intel x86 处 
理 需 指令 集 的 子 集 ， 虽 然 这 间接 降低 了 汇编 器 实现 的 复杂 度 ， 但 是 不 会 
影 啊 汇 编 器 关键 流程 的 实现 。 另 外 ， 编 译 需 在 产生 汇编 代码 之 前 已 经 分 
析 了 源 程 序 的 正确 性 ， 生 成 的 汇编 代码 都 是 合法 的 汇编 指令 ， 因 此 在 汇 




















编 占 的 实现 过 程 中 不 需要 考虑 汇编 语言 的 词法 、 语 法 和 语义 错误 的 情 
况 。 





6) 静态 链接 方式 。 本 书 的 编译 系统 实现 的 链接 器 采用 静态 链接 的 
方式 。 这 是 因为 动态 链接 器 的 实现 相对 复杂 ， 而 且 其 与 静态 链接 器 处 理 
的 核心 问题 基本 相同 。 读 者 在 理解 了 静态 链接 器 的 构造 的 基础 上 ， 通 过 
进一步 的 学 习 也 可 以 实现 一 个 动态 链接 器 。 


7) ELF 文 件 信 息 。 除 了 ELF 文 件 必需 的 段 和 数据 ， 我 们 把 代码 全 部 
存放 在 “.text* 段 ， 数 据 存 储 在 “.data”* 段 。 按 照 这 样 的 文件 结构 组 织 方 
式 ， 不 仅 能 保证 二 进 制 代码 正常 执行 ， 也 有 助 于 我 们 更 好 地 理解 ELF 文 
件 的 结构 和 组 织 。 


综 上 所 述 ， 我 们 所 做 的 限制 并 没有 删除 编译 系统 关键 的 流程 。 按 照 
这 样 的 设计 ， 是 可 以 允许 一 个 人 独立 完成 一 个 较为 完善 的 编译 系统 的 。 


1.5 本章 小 结 








本 章 从 编程 最 基本 的 话题 聊 起 ， 描 述 了 初学 者 接触 程序 时 可 能 遇 到 
的 疑惑 ， 并 从 编程 实践 经 验 中 探索 代码 背后 的 处 理 机 制 。 然 后 ， 使 用 最 
简单 的 “Hello World! ”程序 展现 主流 编译 器 GCC 对 代码 的 处 理 流程 。 最 
后 ， 我 们 在 工业 化 编译 系统 的 基础 上 做 了 一 定 的 限制 ， 提 出 了 本 书 编译 
系统 需要 实现 的 功能 。 在 接 下 来 的 章节 中 ， 会 对 本 书 中 编译 系统 的 设计 
和 实现 细节 详细 阐述 。 














第 2 章 ”编译 系统 设计 
麻 稚 虽 小 ， 五 脏 俱全 。 


一 一 《围城 》 


一 个 完善 的 工业 化 编译 系统 是 非常 复杂 的 ， 为 了 清晰 地 描述 它 的 结 
构 ， 理 解 编译 系统 的 基本 流程 ， 不 得 不 对 它 进 行 “大 刀 阔 径 ? 地 删 减 。 这 
为 目 己 动手 实现 一 个 简单 但 基本 功能 完整 的 编译 系统 提供 了 可 能 。 虽 然 
本 书 设 计 的 是 简化 后 的 编译 系统 ， 但 保留 了 编译 系统 的 关键 流程 。 正 所 
谓 * 厅 雀 昌 小 ， 五 脏 俱全 ”， 本 章 从 全 局 的 角度 描述 了 编译 系统 的 基本 结 
构 ， 并 按照 编译 、 汇 编 和 链接 的 流程 来 介绍 其 设计 。 








2.1 编译 程序 的 设计 


编译 器 是 编译 系统 的 核心 ， 主 要 负责 解析 源 程序 的 语义 ， 生 成 目标 
机 咽 代 码 。 一 般 情 况 下 ， 编 译 流 程 包含 词法 分 析 、 语 法 分 析 、 语 义 分 析 
和 代码 生成 四 个 阶段 。 符 号 表 管 理 和 错误 处 理 贯 军 于 整个 编译 流程 。 如 
果 编 译 器 文 持 代码 优化 ， 那 么 还 需要 优化 磊 模 块 。 





图 2-1 展 示 了 本 书 设 计 的 优化 编译 露 的 结构 ， 下 面 分 别 对 上 述 模块 
的 实现 方案 做 简单 介绍 。 







汇编 文件 (*.s) 


符号 表 管 理 








图 2-1 编译 器 结构 


2.1.1 词法 分 析 


编译 器 工作 之 前 ， 需 要 将 用 高 级 语言 书写 的 源 程 序 作 为 输入 。 为 了 
便于 理解 ， 我 们 使 用 C 语 言 的 一 个 子 集 定义 局 级 语言 ， 本 书后 续 间 市 的 
例子 都 会 使 用 C 语 言 的 一 些 基 本 语法 作为 示例 。 现 在 假定 我 们 拥有 一 段 
使 用 C 语 言 书 写 的 源 程序 ， 词 法 分 析 圳 通过 对 源 文件 的 扫描 获得 高 级 语 











言 定义 的 词法 记号 。 所 谓词 法 记号 〈 也 称 为 终结 符 ) ， 反 映 在 高 级 语言 
语法 中 就 是 对 应 的 标识 人 符 、 关 键 字 、 常 量 ， 以 及 运算 符 、 如 号 、 分 号 等 


界 符 。 见 图 2-2。 


源 代码 词法 分 析 词法 记号 


图 2-2 ”词法 分 析 功 能 





例如 语句 : 





var2=var1+100; 








该 语句 包含 了 6 个 词法 记号 ， 它 们 分 别 


古 : “var22“= ”var12“+21002 和 分 号 。 





对 词法 分 析 器 的 要 求 是 能 正常 识别 出 这 些 不 同形 式 的 词法 记号 。 词 


法 分 析 右 的 输入 是 源 代码 文本 文件 内 一 长 串 的 文本 内 容 ， 那 么 如 何 从 文 
本 串 中 分 析出 每 个 词法 记号 呢 ?” 为 了 解决 这 个 问题 ， 需 要 引入 有 限 自 动 
机 的 概念 。 











有 限 目 动机 能 解析 并 识别 词法 记号 ， 比 如 识别 标识 符 的 有 限 目 动 
机 、 识 别 常量 的 有 限 目 动机 等 。 有 限 目 动机 从 开始 状态 局 动 ， 读 入 一 个 
字符 作为 输入 ， 并 根据 该 字符 选择 进入 下 一 个 状态 。 继 续 读 入 新 的 字 
人 符 ， 直 到 过 到 结束 状态 为 止 ， 读 入 的 所 有 字符 序列 便 是 有 限 目 动机 识别 
的 词法 记号 。 














图 2-3 描 述 了 识别 标识 符 的 有 限 目 动 机 。C 语 言 标识 符 的 定义 是 : 一 
个 不 以 数字 开始 的 由 下 划 线 、 数 字 、 字 母 组 成 的 非 空 字符 串 。 图 中 的 自 
动机 从 0 号 状态 开始 ， 读 入 一 个 下 划 线 或 者 字母 进入 状态 1， 状 态 1 可 以 
接受 任意 数量 的 下 划 线 、 字 母 和 数字 ， 同 时 状态 1 也 是 结束 状态 ， 一 旦 
它 读 入 了 其 他 异常 字符 便 停止 目 动 机 的 识别 ， 这 样 就 可 以 识别 任意 一 个 
合法 的 标识 符 。 如 果 在 非 结 束 状态 读 入 了 异常 的 字符 ， 音 味 着 发 生 了 词 
法 错误 ， 目 动机 停止 《当然 ， 上 述 标识 符 的 有 限 上 自动 机 不 会 出 现 错误 的 
情况 ) 。 














下 划 线 /字母 /数字 








图 2-3 ”标识 符 有 限 上 自动 机 


我 们 以 赋值 语句 “var2=var1+100; ”中 的 变量 var2 为 例 来 说 明 有 限 自 
动机 识别 词法 记号 的 工作 过 程 。 





识别 var2 的 自动 机 状态 序列 和 读 入 字符 的 对 应 关系 如 表 2-1 所 示 ， 结 
束 状态 之 前 识别 的 字符 序列 即 为 合法 的 标识 符 。 


表 2-1 目 动 机 状态 序列 








使 用 有 限 目 动机 ， 可 以 识别 出 目 定 义 语 言 包 含 的 所 有 词法 记号 。 把 
这 些 词法 记号 记录 下 来 ， 作 为 下 一 步 语法 分 析 的 输入 。 如 有 果 使 用 一 过 编 
译 方式 ， 就 不 用 记录 这 些 词法 记号 ， 而 是 直接 将 识别 的 词法 记号 送 入 语 
法 分 析 器 进行 处 理 。 











21.2 语法 分 术 


词法 分 析 惕 的 输入 是 文本 字符 串 ， 语 法 分 析 慢 的 输入 则 是 词法 分 析 
器 识 别 的 词法 记号 序列 。 语 法 分 析 串 的 输出 不 再 是 一 串 线性 符号 序列 ， 
而 是 一 种 树 形 的 数据 结构 ， 通 常 称 之 为 抽象 语法 树 。 见 图 2-4。 


疗法 记号 抽象 语法 树 
> 


语法 分 析 





文法 


图 2-4 ”语法 分 析 功 能 


继续 前 面 赋值 语句 的 例子 ， 我 们 可 以 先 看 看 它 可 能 对 应 的 抽象 语法 
树 ， 如 图 2-5 所 示 。 





赋值 语句 


图 2-5 ”抽象 语法 树 示 例 


从 图 2-5 中 可 以 看 出 ， 所 有 的 词法 记号 都 出 现在 树 的 叶子 节点 上 ， 
我 们 称 这 样 的 叶子 节点 为 终结 符 。 而 所 有 的 非 叶子 节点 ， 都 是 对 一 串 词 
法 记号 的 抽象 概括 ， 我 们 称 之 为 非 终结 符 ， 可 以 将 非 终 结 符 看 作 一 个 单 
独 的 语法 模块 〈 抽 象 语法 子 树 ) 。 其 实 ， 人 整个 源 程 序 是 一 棵 完整 的 抽象 
语法 树 ， 它 由 一 系列 语法 模块 按照 树 结构 组 织 起 来 。 语 法 分 析 器 就 是 要 
获得 源 程 序 的 抽象 语法 树 表 示 ， 这 样 才 能 让 编译 喜 共 体 识别 每 个 语法 模 
块 的 舍 义 ， 分 析出 程序 的 整体 合 义 。 








在 介绍 语法 分 析 器 的 工作 之 前 ， 需 要 先 获得 高 级 语言 语法 的 形式 化 
表示 ， 即 文法 。 文 法 定义 了 源 程 序 代码 的 书写 规则 ， 同 时 也 是 语法 分 析 


天 构造 抽象 语法 树 的 规则 。 如 有 果 要 定义 赋值 语句 的 文法 ， 一 般 可 以 表达 
成 如 下 产生 式 的 形式 : 


< 赋值 语句 >=> 标 识 符 等 号 < 表达 式 > 分 号 


被 “<>” 括 起 来 的 内 容 表示 非 终结 符 ， 终 结 符 直 接 书写 即 可 ， 上 了 式 可 
以 读 作 “赋值 语句 推导 出 标识 符 、 等 写 、 表 达 式 和 分 号”"。 显 然 ， 表 达 式 
也 有 相关 的 文法 定义 。 根 据 定 义 好 的 高 级 语言 特性 ， 可 以 设计 出 相应 的 
高 级 语言 的 文法 ， 使 用 文法 可 以 准确 地 表达 高 级 语言 的 语法 规则 。 








有 了 局 级 语言 的 文法 表示 ， 束 可 以 构造 语法 分 析 强 来 生成 抽象 语法 
树 。 在 编译 原理 教材 中 ， 描 述 了 很 多 的 文法 分 析 算 法 ， 有 上 自 顶 同 下 的 
LL (1) 分 机， 也 有 目 确 同上 的 算 符 优先 分 析 、LR 分 析 等 。 其 中 最 币 使 
用 的 是 LL (1〉 和 LR 分 析 。 相 比 而 言 ，LR 分 析 器 能 力 更 强 ， 但 是 分 析 
器 设计 比较 复杂 ， 不 适合 手工 构造 。 我 们 设计 的 高 级 语言 文法 ， 只 要 稍 
加 约束 便 能 使 LL 〈1) 分 析 器 正常 工作 ， 因 此 本 书 采用 LL (1) 分 析 器 
来 完成 语法 分 析 的 工作 。 递 归 下 降 子 程序 作为 LL《〈1) 算法 的 一 种 便捷 
的 实现 方式 ， 非 常 适 合 手工 实现 语法 分 析 器 。 








递归 下 降 子 程序 的 基本 原则 是 : 将 产生 式 左 侧 的 非 终结 符 转 化 为 函 
数 定义 ， 将 产生 式 右 侧 的 非 终 结 符 转化 为 函数 调用 ， 将 终结 符 转 化 为 词 
法 记号 匹配 。 例 如 前 面 提 到 的 赋值 语句 对 应 的 子 程序 的 伪 代 人 码 大 致 是 这 
样 的 。 


VOid 赋值 语句 


() 
{ 


match (标识 符 
match (等 号 


match( 分 号 








每 次 对 子 程序 的 调用 ， 就 是 按照 前 序 的 方式 对 该 抽象 语法 子 树 的 一 
次 构造 。 例 如 在 构造 赋值 语句 子 树 时 ， 会 先 构造 "赋值 语句 ? 根 节 点 ， 然 
后 依次 匹配 标识 符 、 等 号 子 节点 。 当 遇 到 下 一 个 非 终 结 符 时 ， 会 进入 对 
应 的 “表达 式 ? 子 程序 内 继续 按照 前 序 方 式 构造 子 树 的 子 树 。 最 后 匹配 当 
前 子 程序 的 最 后 一 个 子 节 氮 ， 完 成 "赋值 语句 ? 子 树 的 构造 。 整 个 语法 分 
析 就 是 按照 这 样 的 方式 构造 “程序 ” 树 的 一 个 过 程 ， 一 旦 在 终结 符 匹 配 过 
程 中 出 现 读 入 的 词法 记号 与 预期 的 词法 记号 不 吻合 的 情况 ， 便 会 产生 语 


法 错误 。 











在 实际 语法 分 析 器 实现 中 ， 并 不 一 定 要 显 式 地 构造 出 抽象 语法 树 。 
递归 下 降 子 程序 实现 的 语法 分 析 器 ， 使 得 抽象 语法 树 的 语法 模块 都 组 合 
在 每 次 子 程序 的 执行 中 ， 即 每 次 子 程序 的 正确 执行 都 表示 识别 了 对 应 的 
语法 模块 。 因 此 ， 可 以 在 语法 分 析 子 程序 中 直接 进行 后 续 的 工作 ， 如 语 





义 分 析 及 代码 生成 。 


2.1.3 ”符号 表 管 理 

















符号 表 是 记录 符号 信息 的 数据 结构 ， 它 使 用 按 名 存 取 的 方式 记录 与 
符号 相关 的 所 有 编译 信息 。 编 译 器 工作 时 ， 少 不 了 符号 信息 的 记录 和 更 
新 。 在 本 书 定义 的 品级 语言 中 ， 符 号 存 在 两 种 形式 : 变量 和 函数 。 前 者 
是 数据 的 符 写 化 形式 ， 后 者 是 代码 的 符号 化 形式 。 语 义 分 析 需 要 根据 符 
号 检测 变量 使 用 的 合法 性 ， 代 码 生 成 需要 根据 符号 产生 正确 的 地 址 ， 
此 ， 符 号 信息 的 准确 和 完整 是 进行 语义 分 析 和 代码 生成 的 前 提 。 见 图 2- 
6。 














图 2-6 ”符号 表 管 理 功 能 














对 于 变量 符号 ， 需 要 在 符号 表 中 记录 变量 的 名 称 、 类 型 、 区 分 变量 
的 声明 和 定义 的 形式 ， 如 果 变 量 是 局 部 变量 ， 还 需要 记录 变量 在 运行 时 
栈 帧 中 的 相对 位 置 。 例 如 以 下 变量 声明 语句， 




















extern int Var ， 











该 语句 声明 了 一 个 外 部 的 全 局 变量 ， 记 录 变 量 符号 的 数据 结构 除了 











保存 变量 的 名 称 “var” 之 外 ， 还 需要 记录 变量 的 类 型 “int*， 以 及 变量 是 外 


部 变量 的 声明 形式 “extern”。 


对 于 函数 符 写 ， 需 要 在 符号 表 中 记录 函数 的 名 称 、 返 回 类 型 、 参 数 
列表 ， 以 及 函数 内 定义 的 所 有 局 部 变量 等 。 例 如 下 面 的 函数 定义 代码 : 


int sum(int a,int b) 


int c; 
c=a+b; 
return c,; 


} 








符号 表 应 该 记录 函数 的 返回 类 型 “int*、 函 数 名 “sum”、 参 数列 





表 “int，int*。 函 数 的 局 部 变量 除了 显 式 定义 的 变量 “c" 之 外 ， 还 暗合 参 
数 变 量 “a” 和 “pp” 








由 于 局 部 变量 的 存在 ， 符 写 表 必 须 考虑 代码 作用 域 的 变化 。 函 数 内 
的 局 部 变量 在 函数 之 外 是 不 可 见 的 ， 因 此 在 代码 分 析 的 过 程 中 ， 符 号 表 
需要 根据 作用 域 的 变化 动态 维护 变量 的 可 见 性 。 





2.1.4 语义 分 析 


编译 原理 教材 中 ， 将 语言 的 文法 分 为 4 种 : 0 型 、1 型 、2 型 、3 型 ， 

并 且 这 几 类 文法 对 语言 的 描述 能 力 依次 减弱 。 其 中 ，3 型 文法 也 称 为 正 
规 文 法 ， 词 法 分 析 器 中 有 限 自 动机 能 处 理 的 语言 文法 正 是 3 型 文法 。2 型 
文法 也 称 为 上 下 文 无 关 文 法 ， 也 是 目前 计算 机 程序 语言 所 采用 的 文法 。 
顾名思义 ， 程 序 语言 的 文法 是 上 下 文 无 关 的 ， 即 程序 代码 语句 之 间 在 文 
法 层次 上 是 没有 关联 的 。 例 如 在 分 析 赋 值 语句 时 ，LL (1) 分 析 器 无 法 
解决 “被 赋值 的 对 象 是 已 经 声明 的 标识 符 吗 ? ”这 样 的 问题 ， 因 为 语法 分 
析 只 关心 程序 语言 语法 形式 的 正确 性 ， 而 不 考虑 语法 模块 上 下 文 之 间 联 
系 的 合法 性 。 














然而 实际 的 情况 是 ， 程 序 语 言 的 语句 虽然 形式 上 是 上 下 文 无 关 的 ， 
但 含义 上 却 是 上 下 文 相 关 的 。 例 如 : 不 允许 使 用 一 个 未 声明 的 变量 ， 不 
允许 函数 实 参 列表 和 形 参 列 表 不 一 致 ， 不 允许 对 无 法 默认 转换 的 类 型 进 
行 赋值 和 运算 ， 不 允许 continue 语 句 出 现在 循环 语句 之 外 等 ， 这 些 要 求 
是 语 法 分 析 圳 不 能 完成 的 。 








根据 本 书 设计 的 程序 语言 文法 ， 编 译 器 的 语义 分 析 模 块 〈 见 图 2- 
7) 处 理 如 下 类 似 问题 : 


去 权 En 
- 折 轨 请 法 多 > 语义 分 析 


语义 检查 





图 2-7 语义 分 析 功 能 
1) 变量 及 函数 使 用 前 是 否定 义 ? 
2) break 语 句 是 人 盏 出 现在 循环 或 switch-case 语 句 内 部 ? 
3) continue 语 句 是 否 出 现在 循环 内 部 ? 
4) return 语 句 返 回 值 的 类 型 是 否 与 函数 返回 值 类 型 兼容 ? 


) 函数 调用 时 ， 实 参 列表 和 形 参 列表 是 否 兼容 ? 





6) 表达 式 计 算 及 赋值 时 ， 类 型 是 否 兼 容 ? 





语义 分 析 是 编译 器 处 理 流 程 中 对 源 代码 正确 性 的 最 后 一 次 检查 ， 只 
要 源 代 码 语义 上 没有 问题 ， 编 译 圳 就 可 以 正常 引导 目标 代码 的 生成 。 





2.1.5 ”代码 生成 


代码 生成 是 编译 器 的 最 后 一 个 处 理 阶段 ， 它 根据 识别 的 语法 模块 翻 
译 出 目标 机 器 的 指令 ， 比 如 汇编 语言 ， 这 一 步 称 为 使 用 基于 语法 制导 的 
方式 进行 代码 生成 。 见 图 2-8。 


一 >| 代码 生成 汇编 代 但 
码 生 成 


图 2-8 ”代码 生成 功能 











为 了 便于 理解 ， 本 书 采 用 常见 的 Intel 格 式 汇编 语言 程序 作为 编译 器 
的 输出 。 继 续 引 用 赋值 语句 “var2=var1+100; ”作为 例子 ， 若 将 之 翻译 为 
汇编 代码 ， 其 内 容 可 能 是 : 


mov eax, [var1] 
mov ebx,100 
add eax, ebx 
mov [tmp],eax 
mov eax, [tmp] 
mov [var2],eax 





参考 图 2-5 中 的 两 个 非 叶 子 节 把， 它们 分 别 对 应 了 表达 式 语法 模块 
和 峰值 语句 语法 模块 。 上 面 汇编 代码 的 前 4 行 表示 将 var1 与 100 的 和 存储 
在 临时 变量 imp 中， 是 对 表达 式 翻 译 的 结果 。 最 后 两 行 表 示 将 临时 变量 
tmp 复 制 到 var2 变 量 中 ， 是 对 赋值 语句 的 翻译 结果 。 根 据 上 自 定义 语言 的 





语法 ， 需 要 对 如 下 语法 模块 进行 翻译 ; 


1) 表达 式 的 翻译 。 


2) 复合 语句 的 翻译 。 


3) 函数 定义 与 调用 的 翻译 。 


4) 数据 段 信息 的 翻译 。 


2.1.6 ”编译 优化 


现代 编译 器 一 般 都 包含 优化 右 ， 优 化 右 可 以 提高 生成 代码 的 质量 ， 
但 会 使 代码 生成 过 程 变 得 复杂 。 一 般 主流 的 工业 化 编译 器 会 按照 如 图 2- 
9 所 示 结 构 进行 设计 。 


现代 编译 器 设计 被 分 为 前 端 、 优 化 器 和 后 端 三 大 部 分 ， 前 端 包含 记 
法 分 析 、 语 法 分 析 和 语义 分 析 。 后 端的 指令 选择 、 指 令 调度 和 寄存 器 分 
配 实 际 完成 代码 生成 的 工作 ， 而 优化 器 则 是 对 中 间 代 码 进行 优化 操作 。 
实现 优化 器 ， 必 须 设计 编译 器 的 中 间 代码 表示 。 中 间 代 码 的 设计 没有 国 
定 的 标准 ， 一 般 由 编译 器 设计 者 自己 决定 。 





源 代码 汇编 代码 





图 2-9 ”现代 编译 器 结构 


由 于 中 间 代 码 的 存在 ， 使 得 语法 制导 翻译 的 结果 不 再 是 目标 机 器 的 
代码 ， 而 是 中 间 代 码 。 按 照 我 们 上 自己 设计 的 中 间 代 码 形式 ， 上 述 例子 生 
成 的 中 间 代 码 可 能 是 如 下 形式 : 











tmp=var1i+100 
var2=tmp 


即使 优化 恬 没有 对 这 段 代 码 进 行 处 理 ， 编 译 融 的 后 六 也 能 正确 地 把 
这 段 中 间 代 码 翻译 为 目标 机 制 指令 。 根 据 指令 选择 和 寄存 器 分 配 算法 ， 
得 到 的 目标 机 器 指令 可 能 如 下 : 








mov eax, [var1] 
add eax,100 
mov [var2],eax 


编译 器 后 问 在 指令 选择 阶段 会 选择 更 “合适 ”的 指令 实现 中 间 代 码 的 
翻译 ， 比 如 使 用 “add eax，100” 实 现 tmp=var1+100 的 翻译 。 在 寄存 器 分 
配 阶段 会 尽 可 能 地 将 变量 保存 在 寄存 器 内 ， 比 如 tmp 一 直 保 存在 eax 中 。 





中 间 代 码 的 抽象 程度 一 般 介 于 高 级 语言 和 目标 机 咒语 言 之 间 。 民 好 
的 中 间 代 码 形式 使 得 中 间 代 码 生成 、 目 标 代码 生成 以 及 优化 器 的 实现 更 
加 简单。 我 们 设计 的 优化 费 实 现 了 常量 传播 、 见 余 消除 、 复 写 传播 和 死 
代码 消除 等 经 典 的 编译 优化 算法 。 先 通过 一 个 简单 的 实例 说 明 中 间 代 码 
优化 的 工作 。 


var1=100 
Var2=Var1+100 ; 


将 上 述 高 级 语言 翻译 为 中 间 代 码 的 形式 如 下 : 


Var1=100 
tmp=var1i+100 
var2=tmp 





常量 传播 优化 使 编译 器 在 编译 期 间 可 以 将 表达 式 的 结果 提前 计算 出 
来 ， 因 此 经 过 第 量 传播 优化 后 的 中 间 代 码 形式 如 下 : 


var1=100 
tmp=200 
var2=200 


死 代码 消除 优化 会 把 无 效 的 表达 式 从 中 间 代 码 中 删除 ， 假 如 上 述 代 
人 码 中 只 有 变量 var2 在 之 后 会 被 使 用 ， 那 么 var1 和 tmp 都 是 无 效 的 计算 。 
此 ， 消 除 死 代码 后 ， 最 终 的 中 间 代 码 如 下 : 








var2=200 


再 经 过 后 端 将 之 翻译 为 汇编 代码 如 下 : 


mov [var2], 200 





由 于 本 书 篇 幅 及 作者 水 平 所 限 ， 在 不 能 实现 所 有 的 编译 优化 算法 的 
情况 下 ， 选 择 耕 干 经 典 的 优化 算法 来 帮助 读者 理解 优化 器 的 基本 工作 流 


程 。 


至 此 ， 我 们 简单 介绍 了 高 级 语言 源 文 件 转化 为 目标 机 器 的 汇编 代码 
的 基本 流程 。 本 书 设计 的 编译 需 文 持 多 文件 的 编译 ， 因 此 编译 喜 会 为 每 
个 源 文件 单独 生成 一 份 汇 编 文件 ， 然 后 通过 汇编 器 将 它们 转换 为 二 进 制 
目标 文件 。 汇 编 过 程 中 涉及 目标 机 器 的 指令 格式 和 可 执行 文件 的 内 容 ， 
为 了 便于 理解 汇编 器 的 工作 流程 ， 需 要 提前 准备 与 操作 系统 和 硬件 相关 


的 知识 。 


2.2 x86 指 令 格 式 





编译 系统 的 汇编 器 需要 把 编译 者 生成 的 汇编 语言 程序 转化 为 x86 格 
式 的 二 进 制 机 器 指令 序列 ， 然 后 将 这 些 二 进 制 信息 存储 为 ELF 格 式 的 目 
标 文 件 。 因 此 需要 先 了 解 二 进 制 机 器 指令 的 基本 结构 。 





如 图 2-10 所 示 ， 在 x86 的 指令 结构 中 ， 指 令 被 分 为 前 级 、 操 作 码 、 
ModR/M、SIB、 偏 移 量 和 立即 数 六 个 部 分 。 本 书 设计 的 编译 器 生成 的 
汇编 指令 中 不 包含 前 级 ， 这 里 暂时 不 介绍 它 的 含义 。 操 作 码 部 分 决定 了 
指令 的 含义 和 功能 ，ModR/M 和 SIB 字 节 为 扩充 操作 码 或 者 为 指令 操作 
数 提供 各 种 不 同 的 寻 址 模式 。 如 果 指 令 含有 仿 移 量 和 立即 数 信息 ， 就 需 
要 把 它们 放 在 指令 后 边 的 对 应 位 置 。 


中 括号 F 渤 0 证 和 本 > 0 


| mod | reg/opcode | mm scale| index | base | 


图 2-10 ” x86 指令 格式 








这 里 使 用 一 个 简单 的 例子 与 表 2-2 说 明 x86 指 令 结构 的 含义 ， 例 如 汇 


编 指令 : 





add eax, ebx 





表 2-2 二进制 指令 编码 














指令 格式 操作 码 mod 字段 reg 字段 rm 字段 指令 编码 
add r/m32 ,reg Ox01 | 11 011 | 000 0000 0011 1100 0011 
add reg,r/m32 Ox03 11 000 011 0000 0001 1101 1000 





查阅 Intel 的 指令 手册 ， 当 操作 数 为 32 位 寄存 器 时 ，add 指 令 的 操作 
码 是 0x01 或 者 0x03， 它 们 对 应 的 指令 格式 是 add rm32，reg 和 add reg， 








Ym32。 在 ModR/M 字 节 的 定义 中 ， 高 两 位 mod 字 段 为 0b11 时 表示 指令 的 
两 个 操作 数 都 是 寄存 器 ， 低 三 位 表示 wm 操作 数 寄 存 右 的 编号 ， 中 间 三 
位 表示 reg 操 作 数 寄存 器 的 编号 。Intel] 定 义 eax 寄 存 器 编号 为 0b000，ebx 
寄存 器 编写 为 0b011。 如 果 我 们 采用 操作 码 0x01，reg 应 该 记录 ebx 的 编 
号 0b011，rm32 记 录 eax 编 号 0b000，mod 字 段 为 0b11。 因 此 该 指令 的 


ModR/M 字 节 为 : 





11 011 000 => 0xd8 





同 理 ， 若 采用 操作 码 0x03 的 话 ，ModR/M 字 节 应 该 是 : 





11 000 011 => OQOxc3 





站 令 不 再 含有 其 他 信息 ， 因 此 不 存在 SIB 和 偏 移 量 、 立 即 数字 段 。 
这 样 “add eax，ebx” 指 令 就 有 两 种 二 进 制 表示 形 式 : 0x01d8 与 0x03c3。 

通过 这 个 例子 可 以 得 出 结论 : 在 汇编 器 语法 分 析 阶 段 ， 应 该 记录 生 
成 的 三 进 制 指令 需要 的 信息 。 指 令 的 名 称 决 定 操 作 码 ， 指 令 的 寻 址 方式 














决定 ModR/M 和 SIB 字 上 段 ， 指 令 中 的 常量 决定 偏 移 量 和 立即 数 部 分 。 
由 于 本 书 设计 的 编译 器 所 生成 的 汇编 指令 的 种 类 有 限 ， 因 此 降低 了 


汇编 右 对 指令 信息 分 析 的 复杂 度 ， 但 是 还 有 大 量 的 其 他 类 型 的 指令 需要 


具体 分 机 ， 这 些 内 容 会 在 以 后 章节 中 靖 述 。 











2.3 ELF 文 件 格式 


ELEF 文 件 格式 描述 了 Linux 下 可 执行 文件 、 可 重 定位 目标 文件 、 共 亭 
目标 文件 、 核 心 转 储 文件 的 存储 格式 。 本 书 设计 的 编译 系统 只 关心 可 执 
行文 件 和 可 重 定 位 目标 文件 的 格式 ， 如 果 要 设计 动态 链接 器 的 话 ， 则 还 
需要 了 解 共 诗 目 标 文件 的 内 容 。 


ELF 文 件 信 息 的 一 般 存储 形式 如 图 2-11 所 示 。 








文件 涉 ( ELF Header) 57 
程序 头 表 ( Program Header Table) | (32# 程 序 头 表 项 个 数 ) 
代码 段 ( .text) 
数据 段 ( . data) 
bss 段 ( .bss) 
段 表 字符 串 表 ( . shstrtab) 
段 表 ( Section HeaderTable) 
符号 表 ( .symtab) 
字符 串 表 ( . strtab) 
里 定位 表 ( .rel .text) (8* 重 定位 表 项 个 数 ) 
重 定位 表 ( .rel . data) (8*# 重 定位 表 项 个 数 ) 


图 2-11 ELF 文件 


在 Linux 下 ， 可 以 使 用 readelf 命 令 查 看 ELF 文 件 的 信息 。 如 果 要 查看 
1.3.3 节 生成 的 hello.o 的 信息 ， 可 以 使 用 如 下 命令 查看 ELF 的 所 有 关键 信 


自 


J » 





readelf - 


a hello.o 











在 ELF 文 件 中 ， 最 开始 的 52 个 字 节 记录 ELEF 文 件 头 部 的 信息 ， 通 过 
它 可 以 确定 ELF 文 件 内 程序 头 表 和 段 表 的 位 置 及 大 小 。 以 下 列 出 了 
hello.o 文 件 头 信息 。 








ELF Header : 

Magic: 7f 45 4c 46 01 01 01 00 00 00 00 00 00 00 00 00 
Class: ELF32 
Data: 2's complement, 1itt 
Version: 1 (current) 
OS/ABI: UNIX - System V 
ABI Version: 0 
Type : 

REL (Relocatable file) 
Machine: Intel 80386 
Version: Ox1 


Entry point address: 


OxO 


Start of program headers : 


© (bytes into file) 


Start of section headers: 


224 (bytes into file) 


Flags: Ox0O 

Size of this header: 52 (bytes) 
Size of program headers: 0 (bytes) 
Number of program headers: 0 

Size of section headers: 40 (bytes) 
Number of section headers: 11 
Section header string table index: 8 











紧 接 着 文件 头 便 是 程序 头 表 ， 它 记录 程序 运行 时 操作 系统 如 何 将 文 
件 加 载 到 内 存 ， 因 此 只 有 可 执行 文件 包含 程序 头 表 。 使 用 readelf 碍 看 
1.3.4 市 静态 链接 生成 的 hello 文 件 ， 可 以 看 到 它 的 程序 尖 表 ， 类 型 为 
LOAD 的 表 项 表示 需要 加 载 的 段 。 以 下 列 出 它 的 程序 头 表 信息 。 











Program Headers : 
Type offset VirtAddr PhysAddr FileSiz MemSiz Flg Align 
LOAD 


0X000000 


Ox08048000 


Ox08048000 


Ox84fd2 


Ox84fd2 


Ox1000 


LOAD 


Ox0O85f8c 


0OXx080cdf8c 


0OXx080cdf8c 


O0X007d4 
Ox02388 

RW 

Ox1000 
NOTE OxOO00f4 QOx080480f4 QOx080480f4 QOx00044 Ox00044 R Ox4 
TLS Oxo85f8c ”0x080cdf8c ”0x080cdf8c QOQx00010 QOx00028 R Ox4 
GNU_STACK OxO00000 0x00000000 0x00000000 0x00000 0x00000 RW Ox4 
GNU_RELRO 0OXx085f8c ”0x080cdf8c 0x080cdf8c 0x00074 QOx00074 R Ox1 





ELF 文 件 最 关键 的 结构 是 段 表 ， 这 里 的 段 表 示 文 件 内 的 信息 块 ， 与 
汇编 语言 内 的 段 并 非 同一 个 概念 。 段 表 记 录 了 ELF 文 件 内 所 有 段 的 位 置 
和 大 小 等 信息 。 在 所 有 的 段 中 ， 有 保存 代码 二 进 制 信息 的 代码 段 、 存 储 
数据 的 数据 段 、 保 存 段 表 名 称 的 段 表 字符 串 表 段 和 存储 程序 字符 串 季 
的 字符 串 表 段 。 符 号 表 段 记录 六 编 代 码 中 定义 的 符 写 信息 ， 重 定位 表 段 
记录 可 重 定 位 目标 文件 中 需要 重 定 位 的 符号 信息 。hello.o 的 段 表 如 下 : 














Section Headers : 


[Nr] Name Type Addr off Size ES Flg 
[9] NULL 00000000 000000 ©000000 00 
[1] 
text 
PROGBITS 
00000000 
000034 


00001d 


00 


AX 


[2] 


.rel.text 


REL 


00000000 


000350 


000010 


08 


.data 


PROGBITS 


00000000 


000054 


000000 


00 


WA 

0 

0 

4 
[4] .bss NOBITS 00000000 ”000054 000000 00 WA 
[5] .rodata PROGBITS 00000000 000054 00000d 00 A 
[6] .comment PROGBITS 00000000 000061 ©00002c 01 MS 
[7] .note.GNU-stack PROGBITS 00000000 00008d 000000 00 
[8] .shstrtab STRTAB 00000000 00008d 000051 00 
[9] 
Symtab 

SYMTAB 
00000000 

000298 
0000a0 

10 

10 

8 

4 
[10].strtab STRTAB 00000000 000338 000015 00 








符号 表 段 是 按照 表格 形式 存储 符号 信息 的 ， 我 们 可 以 看 到 主 函 数 和 





Symbol table '.symtab' contains 10 entries: 


Num: Value Size Type Bind Vis Ndx 
0: 00000000 0 NOTYPE LOCAL DEFAULT UND 
1: 00000000 0 FILE LOCAL DEFAULT ABS 
2: 00000000 0 SECTION LOCAL DEFAULT 工 
3: 00000000 0 SECTION LOCAL DEFAULT 3 
4: 00000000 0 SECTION LOCAL DEFAULT 4 
5: 00000000 0 SECTION LOCAL DEFAULT 5 
6: 00000000 0 SECTION LOCAL DEFAULT 7 
7: 00000000 0 SECTION LOCAL DEFAULT 6 
8: 00000000 

29 
FUNC 
GLOBAL 
DEFAULT 
工 
main 
9: 00000000 
0 
NOTYPE 
GLOBAL 
DEFAULT 
UND 
printf 








重 定位 表 也 是 按照 表格 形式 存储 的 ， 很 明显 ，printf 作 为 外 部 符号 
是 需要 重 定 位 的 。 








当 性 


el 


有 


描述 


Relocation section '.rel.text' at offset QOx350 contains 2 entries: 


offset nfo ype Sym.Value Sym.Name 
0000000a 00000501 R_386_32 00000000 ,rodata00000012 
00000902 
R_386_PC32 
00000000 
printf 


从 ELF 文 件 格式 的 设计 中 可 以 看 出 ， 可 执行 文件 其 实 就 是 按照 一 定 
标准 将 二 进 制 数据 和 代码 等 信息 包装 起 来 ， 方 便 操 作 系统 进行 管理 和 使 
。 从 文件 头 可 以 找到 程序 头 表 和 段 表 ， 从 段 表 可 以 找到 其 他 所 有 的 
。 因 此 ， 在 汇编 语言 输出 目标 文件 的 时 候 ， 就 需要 收集 这 些 段 的 信 
， 并 按照 ELF 格 式 组 装 目标 文件 。 这 样 做 不 仅 有 利于 使 用 操作 系统 现 


的 工具 调试 文件 信息 ， 也 为 后 期 链接 器 的 实现 提供 了 方便 。 


另外 需要 说 明 的 是 ， 对 于 ELEF 文 件 格 式 的 定义 ，Linux 提 供 了 头 文件 
述 。 在 系统 目录 /asvinclude/elf.h 提 供 的 elf.h 头 文件 中 摘 述 了 标准 ELF 
文件 的 数据 结构 的 定义 ， 在 实现 汇编 器 和 链接 器 的 代码 中 都 使 用 了 该 头 





文件 。 


2.4 汇编 程序 的 设计 


通过 对 汇编 右 己 有 的 了 解 ， 可 以 发 现汇 编 茧 和 编译 器 的 实现 非常 相 
似 。 编 译 器 是 将 高 级 语言 翻译 为 汇编 语言 的 转换 程序 ， 汇 编 器 则 是 将 汇 
编 语言 翻译 为 目标 机 器 二 进 制 代码 的 转换 程序 。 汇 编 右 实际 就 是 汇编 语 
言 的 “编译 圳 ”， 虽 然 汇 编 语 言 并 非 高 级 语言 。 














汇编 器 也 包含 词法 分 析 、 语 法 分 析 、 语 义 处 理 、 代 码 生成 四 个 基本 
流程 。 但 前 面 讨论 过 ， 本 书 设计 的 汇编 右面 问 编 译 器 所 生成 的 汇编 代 
码 ， 汇 编 代 码 的 正确 性 由 编译 器 保证 ， 因 此 汇编 器 不 需要 进行 错误 检查 
以 及 语义 的 正确 性 检查 。 本 书 设计 的 汇编 器 结构 如 图 2-12 所 示 。 





相 比 于 编译 器 ， 汇 编 器 的 工作 重点 放 在 目标 文件 信息 的 收集 和 二 进 
制 指 令 的 生成 上 。 下 面 分 别 介绍 汇编 器 的 基本 模块 。 





图 2-12 ”汇编 器 结构 


2.4.1 汇编 词法 、 语 法 分 析 





汇编 语言 有 独立 的 词法 记号 ， 对 于 汇编 词法 的 分 析 ， 只 需要 构造 相 
应 的 词法 有 限 目 动机 就 可 以 了 。 举 一 个 简单 的 例子 : 








mov eax, [ebp-8] 





该 指令 有 8 个 词法 记号 ， 它 们 分 别 是 : ′ mov” eax 逗号 [ 
ebp “- ”8' 和 '′ ] 。 汇 编 器 的 词法 分 析 器 将 词法 记号 送 到 语法 分 
析 絮 用 于 识别 汇编 语言 的 语法 模块 。 同 样 ， 我 们 需要 构造 汇编 语言 语法 
分 析 器 ， 在 这 里 可 以 提前 看 一 下 上 述 汇编 指令 的 抽象 语法 树 ， 如 图 2-13 
所 示 。 








mov 指 令 





3 


图 2-13 汇编 指令 抽象 语法 子 树 


图 2-13 中 是 简化 后 的 抽象 语法 树 ， 与 编译 器 类 似 ， 语 法 分 析 器 会 在 
非 叶 子 节 点 处 识别 语法 模块 ， 以 产生 语义 动作 。 由 于 汇编 器 要 输出 可 重 
定位 目标 文件 ， 因 此 在 语法 分 析 时 要 收集 目标 文件 的 相关 信息 。 比 如 记 
录 代 码 段 和 数据 段 的 长 度 、 目 标 文件 符号 表 的 内 容 、 重 定位 表 的 内 容 
等 ， 这 些 操作 都 在 语法 分 析 顺 识别 每 个 语法 模块 时 使 用 语法 制导 的 方式 





dl 
法 








另外 ， 汇 编 右 和 编译 圳 最 大 的 不 同 是 汇编 峰 需 要 对 源 文 件 进行 两 过 
扫描 ， 其 根本 原因 是 汇编 语言 允许 符号 的 后 置 定 义 ， 例 如 汇编 语言 常见 











的 跳 转 指令 : 





jmp 上 








很 明显 ， 在 第 一 过 分 析 jmp 指 令 的 时 候 ， 汇 编 器 并 不 知道 符号 蕊 是否 


己 经 定义 。 因 此 ， 汇 编 器 需要 通过 人 第 一 过 扫 描 获 取 符 号 的 信息 
裔 扫描 时 使 用 符号 的 信息 。 


mn 
ey 
?i 


2.4.2” 表 信息 生成 


汇编 器 的 符号 表 除 了 记录 符号 的 信息 之 外 ， 还 需要 记录 段 相 关 的 信 
恩 以 及 重 定位 符号 的 信息 ， 这 些 信息 都 是 生成 可 重 定 位 目标 文件 所 必需 
的 。 














对 于 段 表 的 信息 ， 可 以 在 汇编 堪 识 别 section 语 法 模块 时 进行 处 理 。 
比如 声明 代码 段 的 汇编 代码 及 段 表 信息 生成 〈 见 图 2-14〉。 





section .text 


section .text i 
mov eax,ebx 
inc eax 


section .dato- 
buffer times 10 db 0 
section .bss 

EOF 





图 2-14” ”上段 表 信 息 生 成 


汇编 器 的 语法 分 析 占 只 要 计算 两 次 section 声 明之 间 的 地 址 友 ， 便 能 
获得 段 的 长 度 ， 从 而 将 段 的 名 称 、 偶 移 、 大 小 记录 到 段 表 项 内 。 如 条规 
定 段 按照 4 字 节 对 齐 ， 则 需要 对 段 俩 移 进 行 扩展 ， 如 图 2-14 所 示 。 








汇编 器 的 符号 表 与 ELF 文 件 的 符 写 表 并 非 同一 个 概念 。 汇 编 器 的 符 








号 表 来 源 于 汇编 语言 定义 的 符号 ，ELF 文 件 的 符号 表 是 汇编 器 根据 需要 
导出 的 符号 信息 ， 如 图 2-15 所 示 。 最 明显 的 一 个 例子 就 是 使 用 equ 命 令 
定义 的 符号 ， 这 个 符号 对 汇编 器 来 说 是 一 个 符号 ， 但 在 ELF 文 件 内 ， 它 


就 是 一 个 数字 常量 ， 不 存在 符号 信息 。 











section .+ex+ 






global main 


段 内 偏 移 | 类 型 
je whileExi+1 Global 


call fun Global 
Local 

_ Global 

section .data | _ -一 一 Global 


global glb ---- 
glb dd 100 
global var 

var dd 1 -一 


图 2-15 符号 表 信 息 生 成 


目标 文件 链接 时 会 重新 组 织 代码 段 、 数 据 段 的 位 置 。 这 样 段 内 定义 
的 所 有 符号 的 地 址 以 及 引用 符号 的 数据 和 指令 都 会 产生 偏差 ， 这 时 束 重 
新 计算 符号 的 地 址 ， 修 改 原来 的 地 址 ， 也 就 是 常 说 的 重 定位 。 重 定位 一 
般 分 为 两 大 类 : 绝对 地 址 重 定 位 和 相对 地 址 重 定位 。 在 重 定位 表 内 ， 需 
要 记录 符号 重 定位 相关 的 所 有 信息 〈 见 图 2-16) 。 

















section .+ex+ section .+ex+ 






重 定位 | 重 定位 位 置 | 重 定位 位 置 | 重 定位 


je whileExit1 月 段 内 偏 移 | 类 型 








section .data 


call fun 相对 
whileExit1: 绝对 
绝对 


section .data 
glb dd 100 
var dd 1 


图 2-16 重 定位 表 信 息 生 成 





2.4.3 ”指令 生成 





2.2 节 介绍 了 x86 指 令 的 基本 结构 。 同 样 ， 在 汇编 器 语法 分 析 时 ， 需 
要 根据 指令 的 语法 模块 收集 这 些 指令 的 结构 信息 。 比 如 操作 码 、 
ModR/M 字 段 、SIB 字 段 、 偏 移 量 、 立 即 数 ， 然 后 按照 指令 的 结构 将 上 
述 信息 写 入 文件 即 可 。 











首先 ， 指 令 名 和 操作 码 一 般 是 一 对 多 的 关系 ， 因 此 需要 根据 具体 的 
操作 数 类 型 或 长 度 来 决定 操作 码 的 值 。 按 照 操 作 数 不 同 建立 一 张 指 令 的 
操作 码 表 来 执行 操作 码 的 查询 是 一 种 有 效 的 解决 方案 。 





其 次 ， 有 些 指令 的 ModR/M 字 段 的 reg 部 分 与 操作 码 有 关 ， 但 不 需要 
输出 ModR/M 字 段 ， 汇 编 器 需要 单独 处 理 这 些 特殊 的 指令 操作 人 码 。 为 
外 ，ModR/M 字 上段 中 包含 是 否 扩 展 了 SIB 字 段 的 信息 。 





除了 正确 输出 指令 的 二 进 制 信息 外 ， 汇 编 右 在 遇 到 对 符号 引用 的 指 
令 时 还 要 记录 相关 重 定位 信息 ， 比 如 重 定位 地 址 、 重 定位 符号 、 重 定位 





最 后 ， 参 考 之 前 介绍 的 ELF 文 件 结构 ， 汇 编 器 将 收集 到 的 段 信 息 和 
二 进 制 数据 组 装 到 目标 文件 内 。 


至 此 ， 根 据 已 描述 的 汇编 器 主要 工作 流程 ， 可 以 生成 标准 的 ELF 可 





重 定位 目标 文件 。 那 么 ， 如 何 把 这 些 分 散 的 目标 文件 合并 成 我 们 最 终 想 
要 的 可 执行 文件 ， 便 是 接 下 来 要 介绍 的 链接 占 的 工作 内 容 。 


2.5 链接 程序 的 设计 


本 书 欲 设计 一 个 简洁 的 静态 链接 占 ， 以 满足 上 述 汇 编 占 产生 的 目标 
文件 的 链接 需求 。 它 的 工作 内 容 是 把 多 个 可 重 定位 目标 文件 正确 地 合并 
为 可 执行 文件 ， 但 链接 嚣 不 是 对 文件 进行 简单 的 物理 合并 。 除 了 合并 同 
类 的 段 外 ， 链 接 右 需要 为 段 分 配合 适 的 地 址 空间 ， 还 需要 分 析 目 标 文件 
符号 定义 的 完整 性 ， 同 时 对 符号 的 地 址 信息 进行 解析 ， 最 后 还 有 链接 器 
最 关键 的 工作 一 一 重 定 位 。 本 书 设计 的 链接 此 结构 如 图 2-17 所 示 。 








< 一 地 


可 重 定位 目标 文件 
[ 如 





图 2-17 链接 器 结构 


段 的 地 址 空间 分 配 除了 为 加 载 占 提供 相应 的 信息 外 ， 还 可 为 段 内 符 
号 地 址 的 计算 提供 依据 。 符 号 解析 除了 验证 符号 引用 和 定义 的 正确 性 之 
外 ， 还 需要 计算 出 每 个 符号 表 内 符号 的 虚拟 地 址 。 重 定位 可 以 让 每 个 引 
用 符号 的 数据 或 者 代码 具有 正确 的 内 容 ， 以 保证 程序 的 正确 性 ， 下 面 惑 
按照 这 三 个 方面 分 别 介绍 链接 器 的 工作 。 





2.5.1 地 址 空间 分 配 


在 汇编 圳 生成 的 目标 文件 内 ， 是 无 法 确定 数据 段 和 代码 段 的 虚拟 地 
址 的 ， 因 此 将 它们 的 段 地 址 都 设置 为 0。 链 接 占 是 这 些 代码 和 数据 加 载 
到 内 存 执行 之 前 的 最 后 一 道 处 理 ， 因 此 要 为 它们 分 配 段 的 基 址 。 


链接 器 按照 目标 文件 的 输入 顺序 扫描 文件 信息 ， 从 每 个 文件 的 段 表 
中 提取 出 各 个 文件 的 代码 段 和 数据 段 的 信息 。 假 设 可 执行 文件 段 加 载 后 
的 起 始 地 址 是 0x080408000， 链 接 器 从 该 地 址 开始 ， 就 像 * 摆 积木 似 的 
将 所 有 文件 的 同类 型 段 合 并 ， 按 照 代码 段 、 数 据 段 、“.bss” 段 的 顺序 依 
次 决定 每 个 段 的 起 始 地 址 ， 此 时 需要 考虑 段 间 对 齐 产 生 的 偏 移 以 及 特殊 
的 地 址 计算 方式 (参考 第 5 章 关 于 程序 头 表 的 描述 )。 





图 2-18 展 示 了 链接 器 将 目标 文件 ao 和 b.o 链 接 为 可 执行 文件 ab 时 ， 
地 址 空间 分 配 的 效果 。a.o 的 数据 段 大 小 为 0x08 字 节 ， 代 码 段 大 小 为 0x4a 
字 节 ; b.o 的 数据 段 大 小 为 0x04 字 节 ， 代 码 段 大 小 为 0x21 字 节 。 链 接 后 
的 可 执行 文件 ab 的 数据 段 大 小 为 0x0c 字 节 ， 代 码 段 大 小 为 0x6d 字 节 (对 
齐 b.o 的 代码 段 消 耗 2 字 市 )。 代 码 段 的 起 始 地 址 为 0x08048080， 结 束 地 
址 为 0x08048080+0x6d=0x080480ed。 数 据 段 起 始 地 址 为 0x080490f0， 结 
束 地 址 为 0x080490f0+0x0c=0x080490fc。 


section .+ex+ 


mov eax ,[ex+] 
mov [var ] ,eax 


section .data 


var dd1 


section .text 


mov eax,[ext+] 
mov [var] eax 


section .text 


section .data 


section .data 
ext dd0 


图 2-18 ”地 址 空间 分 配 


section .text+t 


section .data 
ext dd0 





2.5.2 ”符号 解析 


如 果 说 地 址 空间 分 配 是 为 段 指定 地 址 的 话 ， 那 么 符号 解析 就 是 为 段 
内 的 符号 指定 地 址 。 对 于 一 个 汇编 文件 来 说 ， 它 内 部 使 用 的 符 写 分 为 两 
类 : 一 类 来 目 目 身 定义 的 符号 ， 称 为 内 部 符号 。 内 部 符号 在 其 段 彤 的 偶 
移 是 确定 的 ， 当 段 的 起 始 地 址 指定 完毕 后 ， 内 部 符号 的 地 址 按照 如 下 方 
式 计算 ; 











符号 地 址 = 符号 所 在 段 基 址 + 符号 所 在 段 内 偏 移 


另 一 类 来 和 目 其 他 文件 定义 的 符号 ， 本 地 文件 只 是 使 用 该 符号 ， 这 类 
符号 称 为 外 部 符号 。 外 部 符号 地 址 在 本 地 文件 内 是 无 法 确定 的 ， 但 是 外 
部 符号 总 定义 在 其 他 文件 中 。 外 部 符 写 相对 于 定义 它 的 文件 束 是 内 部 符 
号 了 ， 同 样 使 用 前 面 的 方式 计算 出 它 的 地 址 ， 而 使 用 该 符号 的 本 地 文件 


需要 的 也 是 这 个 地 址 。 


























在 重 定位 目标 文件 内 ， 符 号 表 记 录 了 符号 的 所 有 信息 。 对 于 本 地 定 
义 的 符号 ， 符 号 表 项 记录 符号 的 段 内 侦 移 地 址 。 对 于 外 部 引用 的 符号 ， 
符号 表 项 标识 该 符号 为 “未 定义 的 ”。 当 链接 器 扫描 到 定义 该 外 部 符号 的 
目标 文件 时 ， 就 需要 将 该 外 部 符号 的 地 址 修改 为 正确 的 符号 地 址 。 最 终 
的 结果 使 得 所 有 目标 文件 内 的 符 写 信息 ， 无 论 是 本 地 定义 的 还 是 外 部 定 
义 的 都 是 完整 的 、 正 确 的 。 























链接 需 在 扫描 重 定 位 目标 文件 的 符号 表 时 会 动态 地 维护 两 个 符号 集 
合 。 一 个 记录 所 有 文件 定义 的 全 局 符号 集合 Export， 该 集合 内 的 所 有 符 
号 允许 被 其 他 文件 引用 。 还 有 一 个 记录 所 有 文件 使 用 的 未 定义 符号 的 集 
合 Import， 该 集合 内 所 有 符 写 部 来 源 于 其 他 目标 文件 。 文 件 扫描 完毕 
后 ， 链 接 器 毅 要 验证 Import 集 合 是 否 是 Export 的 子 集 。 如 果 不 是 ， 束 表 
明 存 在 未 定义 的 符 写 。 未 定义 的 符号 信息 是 未 知 的 ， 链 接 右 无 法 进行 后 
续 的 操作 ， 因 而 会 报错 。 如 有 果 验 证 成 功 ， 则 表明 所 有 文件 引用 的 外 部 符 
号 都 已 定义 ， 链 接 器 才 会 将 已 定义 的 符号 信息 拷贝 到 未 定义 符号 的 符号 
表 项 。 








符号 解析 完毕 后 ， 所 有 目标 文件 符号 表 内 的 所 有 符号 都 获得 了 完 
整 、 正 确 的 符号 地 址 信息 。 比 如 图 2-18 内 的 符号 var、ext 和 fan 在 符号 解 


析 后 的 符号 地 址 分 别 为 0x080490f4、0x080490f8 和 0x080480cc。 


2.5.3” 重 定位 








重 定位 从 本 质 上 来 说 就 是 地 址 修正 。 由 于 目标 文件 在 链接 之 前 不 能 
获取 目 己 所 使 用 符号 的 虚拟 地 址 信息 ， 因 此 导致 依赖 于 这 些 符 号 的 数据 
定义 或 者 指令 信息 缺失 。 汇 编 器 在 生成 目标 文件 的 时 候 就 记录 下 所 有 需 
要 重 定位 的 信息 。 链 接 器 获取 这 些 重 定位 信息 ， 并 按照 重 定位 信息 的 含 


义 修改 已 经 生成 的 代码 ， 使 得 最 终 的 代码 正确 、 完 整 。 
































之 所 以 称 重 定位 是 链接 右 最 关键 的 操作 ， 主 要 是 因为 地 址 空间 分 配 
和 符号 解析 都 是 为 重 定位 做 准备 的 。 程 序 在 运行 时 ， 段 的 信息 、 符 号 的 
信息 都 显得 “微不足道 ?， 因 为 CPU 只 关心 文件 内 的 代码 和 数据 。 即 便 如 
此 ， 也 不 能 忽略 地 址 空间 分 配 和 符号 解析 的 重要 性 。 既 然 重 定位 是 对 已 
有 二 进 制 信息 的 修改 ， 因 此 作为 链接 器 需要 清楚 儿 件 事情 : 











1) 在 哪里 修改 二 进 制 信息 ? 


2) 用 什么 信息 进行 修改 ? 


3) 按照 怎样 的 方式 修改 ? 





这 三 个 问题 反映 在 重 定位 中 对 应 的 三 个 参数 : 重 定位 地 址 、 重 定位 
符号 和 重 定位 类 型 。 








重 定位 地 址 在 重 定位 表 中 没有 直接 记录 ， 因 为 在 重 定 位 目标 文件 
内 ， 段 地 址 还 没 确定 下 来 ， 它 只 记录 了 重 定 位 位 置 所 在 段 内 的 信 移 ， 在 
地 址 空间 分 配 结束 后 ， 我 们 使 用 如 下 公式 计算 出 重 定位 地 址 : 











重 定位 地 址 = 重 定位 位 置 所在 段 基 址 + 重 定位 位 置 的 段 内 侦 移 


重 定 位 符号 记录 着 航 指 令 或 者 数据 使 用 的 符号 信息 ， 比 如 call 指 令 
的 标号 、mov 指 令 使 用 的 变量 符号 等 。 在 符号 解析 结束 后 ， 重 定位 符号 


的 地 址 就 已 经 确定 了 。 


重 定位 类 型 决定 修改 二 进 制 信息 的 方式 ， 即 绝对 地 址 重 定位 和 相对 
地 址 重 定位 。 








在 确定 了 重 定 位 符号 地 址 和 重 定位 地 址 后 ， 根 据 重 定位 的 类 型 ， 链 
接 需 便 可 以 正确 修改 重 定 位 地 址 处 的 符号 地 址 信息 。 





人 至此， 和 链接 器 的 主要 工作 流程 描述 完毕 。 作 为 编译 系统 的 最 后 一 个 
功能 模块 ， 链 接 器 与 操作 系统 的 关系 是 最 密切 的 ， 比 如 它 需 要 考虑 页 面 
地 址 对 齐 、 指 令 系统 结构 以 及 加 载 占 工作 的 特点 等 。 


2.6 本章 小 结 


本 章 介 绍 了 编译 系统 的 设计 ， 并 按照 编译 、 汇 编 和 链接 的 顺序 阐述 
了 它们 的 内 部 实现 。 同 时 ， 也 介绍 了 x86 指 令 和 ELF 文 件 结构 等 与 操作 
系统 及 人 硬件 相关 的 知识 。 


通过 以 上 的 描述 ， 可 以 了 解 高 级 语言 如 何 被 一 步 步 转化 为 汇编 语 
言 ， 以 及 词法 分 析 、 语 法 分 析 、 语 义 分 析 、 符 号 表 和 代码 生成 作为 编译 
恬 的 主要 模块 ， 其 内 部 是 如 何 实现 的 。 汇 编 占 在 把 汇编 语言 程序 转化 为 
二 进 制 机 融 代 码 时 ， 做 了 怎样 的 工作 ; 汇编 器 的 词法 和 语法 分 析 与 编译 
器 有 何不 同 ， 汇编 器 如 何 生 成 二 进 制 指令 和 目标 文件 的 信息 。 链 接 器 在 
处 理 目标 文件 时 是 如 何 进行 地 址 分 配 、 符 号 解析 以 及 重 定位 的 ， 它 生成 
的 可 执行 文件 和 目标 文件 有 何不 同等 。 








通过 对 这 些 问 题 的 简要 描述 ， 我 们 对 编译 系统 的 工作 流程 有 了 全 局 
的 认识 。 至 于 具体 的 实现 细节 会 在 以 后 的 章节 中 以 一 个 自己 动手 实现 的 
编译 系统 为 例 详 细 进 行 介绍 ， 下 面 就 让 我 们 开始 实现 一 个 真正 的 编译 系 
统 吧 ! 


干 举 万 变 ， 其 道 一 也 。 
一 一 《荀子 》 


从 本 章 开 始 ， 将 详细 阐述 如 何 构造 一 个 目 定义 语言 的 编译 器 。 在 实 
现 编译 器 之 前 ， 必 须 弄 清 编译 器 要 处 理 什么 样 的 语言 。 本 书 设计 的 自 定 
义 语言 是 C 语 言 的 子 集 。C 语 言 本 里 容易 理解 ， 为 多 数 人 熟知 ， 了 解 C 语 
言 编译 器 的 实现 过 程 对 加 深 理 解 C 语 言 的 本 质 大 有 神 益 。 此 外 ， 选 用 C 
语言 的 子 集 可 以 有 效 降 低 纺 译 器 实现 的 复杂 度 ， 将 我 们 的 精力 重点 放 在 
编译 器 实现 的 流程 ， 而 非 楷 杂 、 重 复 的 编码 工作 上 。 





参考 图 2-1 描 述 的 编译 器 的 结构 ， 接 下 来 详细 曾 述 编译 器 每 个 功能 
模块 的 实现 。 


3.1 词法 分 析 


词法 分 析 是 编译 器 处 理 流程 中 的 第 一 步 ， 它 顺序 扫描 源 文件 内 的 字 
符 ， 通 过 与 词法 记号 的 有 限 自 动机 进行 匹配 ， 产 生 各 式 各 样 的 词法 记 
号 。 图 3-1 描 述 了 词法 分 析 器 的 结构 ， 将 从 源 文 件 内 按 序 扫描 字符 的 功 
能 独立 出 来 ， 称 之 为 扫描 器 ， 而 与 有 限 上 自动 机 进行 匹配 产生 词法 记号 的 







有 限 日 动机 


|] 字符 ”| 词法 记号 
扫描 器 解析 器 


图 3-1 词法 分 析 峰 结构 






根据 词法 分 析 器 的 结构 ， 需 要 解决 以 下 四 个 问题 : 


1) 扫描 噩 如 何 实现 源 文 件 字符 的 扫描 ， 它 与 普通 的 读 文件 有 什么 


区 列 ? 


2) 词法 记号 是 如 何 定义 的 ? 








3) 为 什么 有 限 目 动机 可 以 识别 词法 记号 ? 


4) 解析 器 是 如 何 利 用 有 限 目 动机 将 一 串 字 符 转 化 为 词法 记号 的 ? 


市 着 这 四 个 问题 ， 我 们 一 起 探索 词 法 分 析 器 的 实现 。 


3.1.1 扫描 器 


扫 搬 履 读 取 源 文 件 ， 按 序 返 回 文件 内 的 字符 ， 直 到 文件 结束 。 简 单 
地 说 ， 扫 摘 絮 按 序 读 取 源 文件 内 的 每 一 个 字 节 的 数据 。 如 图 3-2 所 示 ， 
字符 a 前 面 的 空格 ”\x20”′ 和 分 号 后 面 的 换行 符 ” ”都 会 被 读 取 。 








图 3-2 ”扫描 器 功能 


使 用 C 语 言 的 库 函 数 fscanf 或 者 fread 可 以 轻松 实现 扫描 器 的 功能 ， 代 
人 码 如 下 : 





1 char Scanner::scan 


(FILE*file){ 

2 char ch / /保存 读 取 的 字符 
3 if(fscanf 

(file,"%c",&ch)==EOF){ //fscanf 读 取 文件 内 字符 朋 

ch 

4 ch=-1; / /文件 结束 时 


Ch 记录 为 











} 
6 return ch / /返回 字符 





这 样 做 可 以 实现 扫描 器 的 基本 功能 ， 但 是 并 不 高 效 。 因 为 词法 分 析 
器 每 次 调用 scan 函 数 获取 源 文件 内 的 下 一 个 字符 时 ， 都 会 产生 一 次 对 磁 
盘 的 读 操 作 ， 而 磁盘 的 MO 操作 是 比较 耗 时 的 。 更 高 效 的 方式 是 使 用 一 
块 缓冲 区 保存 后 续 的 多 个 字符 ， 每 次 调用 scan 时 首先 从 绥 冲 区 内 按 序 获 
取 字 符 ， 只 有 缓冲 区 为 空 时 才 会 读 取 磁 盘 重 新 加 载 缓冲 区 。 这 有 点 类 似 
于 Linux 文 件 系统 的 预 读 机 制 。 


使 用 缓冲 区 进行 文件 扫描 的 算法 流程 如 图 3-3 所 示 。 





缓冲 区 为 空 ? 


读 入 80 字 节 到 缓冲 区 


从 缓冲 区 取 一 个 字符 


图 3-3” 扫 揪 器 算法 


扫描 占 使 用 80 字 市 长 度 的 缓冲 区 ， 每 次 从 缓冲 内 读 取 字 符 ， 如 果 绥 
冲 区 为 空 ， 则 从 源 文件 内 加 载 新 的 80 字 节 数 据 到 缓冲 区 ， 直 到 文件 读 取 
完毕 。 算 法 的 实现 代码 如 下 : 





1 #define BUFLEN 80 / /缓冲 区 大 小 





2 int lineLen=0; / /缓冲 区 内 的 数据 长 度 


3 int readPos=-1,; // 读 取 位 置 


4 char line[BUFLEN]; 

5 int lineNum=1; 

6 int colNum=0; 

7 char lastch=ch,; 

8 char scan 

(FILE*file)f{ 

9 if(!file) 

10 return -1; 

11 if(readPos==lineLen-1)f{ 
12 lineLen=fread 


(line,1,BUFLEN, file); 


13 


14 


20 


21 


if(lineLen==0){ 


lJineLen=1; 


line[0]=-1; 


readPos=-1; 


readPos++; 


char ch=line[readPos]; 


if(lastch=="'\n'){ 


/ /重新 加 载 缓冲 


区 数据 





/ /缓冲 区 


i 


// 行 


// 列 号 


/7 主 一个 字 答 


/ /没有 文件 


/ /缓冲 区 读 取 完毕 





/ /没有 数据 了 


/ /数据 长 度 为 


/ /文件 结束 标记 


/ /恢复 读 取 位 置 


/ /移动 读 取 点 


/ /获取 新 的 字符 


// 新 行 


22 ineNum++， // 行 号 累加 














23 colLNum=0 // 列 号 清空 

24 } 

25 if(ch==-1){ / /文件 结束 ， 自 动 关闭 
26 fclose(file); 

27 file=NULL; 

28 } 

29 else if(ch!='\n') / /不 是 换行 

30 COLNum++ // 列 号 递增 

31 lastch=ch,; // 记 录 上 一 个 字符 
32 return ch; / /返回 字符 

33 } 





第 9 行 判 断 文件 指针 是 否 为 空 ， 如 果 为 空 ， 则 直接 返回 文件 结束 符 - 


第 11 行 判断 读 取 位 置 readPos 是 否 到 达 缓 冲 区 内 数据 的 末尾 ， 如 果 
是 ， 则 使 用 fread 库 函数 重新 加 载 缓冲 区 ， 读 入 BUFLEN 字 节 数 据 。 


第 13 行 判断 fread 的 返回 值 ， 如 果 lineLen 等 于 0， 则 说 明文 件 结束 。 
此 时 将 lineLen 设 置 为 1， 并 在 缓冲 区 内 保存 一 个 特殊 字符 -1， 表 示 文 件 


a 
结 


第 17 行 将 readPos 重 置 为 -1， 从 文件 中 将 数据 加 载 到 缓冲 区 后 ， 从 组 
冲 区 的 开始 处 读 字符 。 


第 19~20 行 累加 读 取 位 置 readPos， 并 将 缓冲 区 内 readPos 位 置 的 字符 
保存 到 ch 中 。 


第 21~24 行 判断 ， 耕 上 一 个 字符 是 换行 符 ， 则 将 行 号 加 1， 列 号 清 





第 25~28 行 判断 ， 耕 当前 字符 是 文件 结束 符 ， 则 将 文件 关闭， 文件 
旨 针 置 为 NULL。 之 后 ， 如 宁 再 次 调用 scan， 根 据 第 9 行 的 判断 ， 扫 描 需 


将 仍 返 回 特殊 字符 -1。 





第 29~30 行 判断 ， 耕 当前 字符 不 是 换行 符 则 将 列 号 加 1。 


第 31 行 将 扫描 过 的 字符 保存 到 lastch， 这 样 扫描 下 一 个 字符 时 ， 
lastch 总 是 保存 了 上 次 扫描 到 的 字符 。 
第 32 行 返回 当前 扫描 到 的 字符 。 


通过 对 扫描 器 算法 scan 的 不 断 调用 ， 可 以 将 源 文 件 转化 为 线性 的 字 
符 序 列 ， 为 解析 器 提供 输入 。 不 过 在 展开 对 解析 器 的 讨论 前 ， 需 要 明确 
词法 记号 的 定义 。 


2 记忆 二 


词法 记号 是 高 级 语言 代码 的 基本 单位 ， 可 以 认为 高 级 语言 代码 是 词 
法 记号 按照 一 定 规则 的 组 合 。 词 法 记号 通常 可 以 分 为 标识 符 、 关 键 字 、 
第 量 、 界 符 四 大 类 ， 高 级 语言 的 定义 对 词法 记号 的 定义 有 直接 影响 。 不 
同 语言 对 标识 符 的 定义 不 同 ， 如 Visual Basic 不 区 分 标识 符 的 大 小 写 ，C 
语言 区 分 标识 符 的 大 小 写 。 不 同 语言 的 关键 字 表 也 不 尽 相 同 ， 如 在 C 语 
言 内 不 存在 C++ 的 Virtual 关键 字 。 不 同 语言 的 界 符 定 义 不 同 ，PASCAL 
的 赋值 运算 符 为 * : =”， 而 C 语 言 的 赋值 运算 符 为 “=” 等 。 











本 书 编译 系统 处 理 的 自 定义 语言 的 词法 记号 如 下 : 


1) 类 型 系统 。 支 持 int、char、void 基 本 类 型 和 一 维 指针 、 一 维 数 组 
类 型 。 涉 及 的 词法 记号 有 关键 字 int、char、void， 指 针 运 算 符 为 ” *”′ ， 
取 址 运算 符 为 '”&&”， 数 组 索引 运算 符 为 [和 ]'。 














2) 常量 。 字 符 常 量 、 字 符 串 常量 、 二 / 八 /十 进 制 整 数 。 涉 及 的 词法 
记号 有 数字 常量 num、 字 符 常 量 ch、 字 符 串 常量 str。 与 常量 对 应 的 变量 
使 用 标识 符 表 示 ， 因 此 标识 符 id 也 是 词法 记号 。 




















3) 表达 式 。 支 持 加 、 减 、 乘 、 除 、 取 模 、 取 负 、 自 加 、 自 减 算术 
运算 ， a a < 小 于 、 小 于 等 于 、 等 于 、 不 等 于 关系 运算 








和 “与 "、“ 或 "、“ 非 "逻辑 运算 。 涉 及 的 词法 记号 有 ' + ，' - ，'* 
/ , / 大 / 067 人 pb : / 十 十 人/ (Rh 。 / >/ . / >=/ / < 

/ / <=/ , 二 一/ / | =-/ ; / RR / | s / | / 注意 这 里 
的 乘法 运算 符 和 指针 运算 符 是 同一 个 字符 ， 在 词法 分 析 器 内 它们 被 视 为 
同一 个 词法 记号 。 同 理 ， 减 法 运算 符 和 取 负 运算 符 也 是 如 此 。 





4) 语句 。 支 持 赋值 语句 ，do-while、while、for 循 环 语句 ，if-else、 
Switch-case 条 件 分 文 语句 ， 函 数 调用 、return、break、continue 语 句 。 涉 
及 的 词法 记号 有 赋值 运算 符 ”=”′， 关 键 字 do、while、for、 计 、else、 
switch、case、default、return、break、continue。 男 外 ， 复 合 语句 或 函数 
体 需 要 使 用 花 括 号 包含 起 来 ， 基本 语句 都 是 以 分 号 结束 ; case 和 default 
关键 字 后 使 用 冒号 分 隔 ， 因 此 词法 记号 还 包含 ”{' 、””}  、 分 号 以 及 


种 号， 











5) 声明 与 定义 。 文 持 extern 变 量 声明 、 函 数 声 明 ， 变 量 、 函 数 定 
义 。 涉 及 的 词法 记号 有 exterm 关 键 字 ， (和) ′， 注 意 小 括号 也 
可 能 出 现在 表达 式 中 。 男 外 ， 变 量 定 义 列表 和 函数 的 参数 列表 部 使 用 喜 


号 分 隔 ， 因 此 逗号 是 词法 记号 。 





HI 





6) 其 他 。 文 持 默 认 类 型 转换 、 单 行 和 多 行 注释 等 。 默 认 类 型 的 转 
换 属 于 代码 生成 部 分 的 内 容 ， 注 释 不 是 有 效 的 词法 记号 。 不 过 除了 以 上 
提 到 的 词法 记号 之 外 ， 还 需要 引入 两 个 特殊 的 词法 记号 。err 表 示 词 法 分 
析出 错时 返回 的 词法 记号 ， 词 法 分 析 咒 或 语法 分 析 需 都 自动 忽略 这 个 词 











法 记号 。 此 外 ， 使 用 词法 记号 end 表 示 文 件 结束 。 
于 是 ， 目 定义 语言 涉及 的 所 有 词法 记号 如 表 3-1 所 示 。 


表 3-1 词法 记号 
到 


标识 符 标识 符 s 
ET 





错误 记号 六 


量 


球 























& 

ss 
kw_ void | 

Ke eXEern extern = 

kw if > 

kw else >= 

kw switch switch < 

= 


Xi 
kw default default == 


kw do Comma 








kw for colon 








kw break 


lparen ' 
rparen ) 
| 


semicon 











我 们 使 用 一 个 枚 举 类 型 记录 所 有 的 词法 记号 标签 ， 为 后 面 的 代码 提 


供 符 写 定 义 。 





1 /* 
2 词法 记号 标签 


3 */ 


4 enum Tag 


13 


14 


15 


20 


ERR, 


END, 


ID, 


KW_INT, KW_CHAR, KW_VOID， 


KW_ EXTERN, 
NUM, CH, STR, 


NOT, LEA, 


ADD, SUB, MUL, DIV, MOD, 


INC, DEC, 


GT, GE, LT, LE, EQU, NEQU, 


AND, OR, 


LPAREN, RPAREN, 
LBRACK, RBRACK, 
LBRACE, RBRACE, 
COMMA, COLON, SEMICON, 


ASSIGN, 


/ /错误 ， 异 常 


/ /文件 结束 标记 


/ /标识 符 


/ /数据 类 型 


//extern 
/ /常量 


// 单 目 运算 


区 


/ /算术 运算 符 





// 自 加 自 减 

















/ /比较 运算 符 


/ /赋值 


21 KW_IF, KW_ELSE, //if-else 


22 KwW_SWITCH, KW_CASE, KW_DEFAULT, //swicth-case-deat 
23 KW_WHILE, KW_DO, KW_FOR, / /循环 

24 KW_BREAK, KW_CONTINUE, KW_RETURN //break,continue,r 
25 }; 








注意 Tag 枚 举 类 型 内 保存 的 词法 记号 标签 都 是 大 写 ， 以 避免 与 C 语 
言 关键 字 冲 突 。 关 键 字 标签 都 是 以 KW_ 开 始 ， 界 符 标签 被 分 配 了 合适 的 














词法 记号 标签 只 是 区 分 了 不 同 的 词法 记号 ， 而 对 一 些 特殊 的 词法 记 
稚 


号 ， 如 标识 符 、 和 常量 等 除了 需要 保存 词法 记号 标签 信息 外 ， 还 要 保存 标 
等 





想来 设计 与 词法 记号 相关 的 类 。 


如 图 3-4 所 示 ， 基 类 Token 表 示 一 般 的 词法 记号 ， 它 只 包含 一 个 公有 
字段 tag， 用 于 记录 词法 记号 的 标签 。Token 有 四 个 派生 类 Id、Num、 
Char、Str， 分 别 对 应 标识 符 、 数 字 常 量 、 字 和 从 常量、 字符 串 常量 。 其 中 
Id 的 公有 字段 name 记 录 了 标识 符 的 名 称 ，Num 的 公有 字段 val 记 录 了 数 
字 常 量 的 值 ，Char 的 公有 字段 ch 记录 了 字符 常量 的 值 ，Str 的 公有 字段 str 


记录 了 字符 串 帝 量 的 值 。 




























-keywords : hash_map RCR 一 一 一 | 
+toString() : string [四 








图 3-4 词法 记号 类 图 


与 Id 关联 的 是 Keywords 类 ， 它 的 公有 字段 keywords 是 教 列 表 类 型 ， 
记录 了 自 定义 语言 定义 的 所 有 关键 字 。Keywords 的 实例 化 类 型 为 
hash_map<string，Tag，string_hash>， 它 记录 了 关键 字 名 称 与 关键 字 词 
法 记号 标签 的 映射 和 关系。 如 此 设计 的 原因 是 关键 字 在 词法 分 析 器 内 可 以 
看 作 一 类 特殊 的 标识 符 ， 词 法 分 析 器 在 创建 标识 符 词法 记号 对 象 之 前 只 
需要 使 用 getTag 方 法 查询 Keywords 内 保存 的 关键 字 表 ， 便 可 以 确定 是 创 
建 Id 对 象 还 是 普通 的 关键 字 词 法 记号 Token 对 象 。 











按照 上 述 类 的 设计 ， 我 们 实现 了 词法 记号 相关 的 类 ， 代 码 如 下 : 





1 /* 
2 词法 记号 类 


3: “7 
4 class Token 


6 


14 
15 


public: 
Tag tag; 
Token (Tag t); 
Virtual string toString()， 
Virtual ~Token (); 
}; 
pe 


标识 符 记 号 类 


#/ 
class Id 


:public Token 


44 


{ 
public: 
string name; 
Id (string n); 
Virtual string toString()， 
}; 
/A* 
数字 记号 类 
夫人 
class Num 


ts 
public: 
int val; 
Num (int v); 
Virtual string toString()， 
}; 
/* 
字符 记号 类 
</ 
class Char 


{ 
public: 
char ch; 
Char (char c); 
Virtual string toString()， 





字符 串 记号 类 


4 


// 内 部 标签 


45 class Str 


:public Token 


47 public: 

48 string str; 

49 Str (string s); 

50 Virtual string toString()， 
51 }; 

52 

53 /* 

54 ”关键 字 表 类 

55. 


56 class Keywords 


58 //hash 函 数 


59 //struct strir 
60 size_t operator()(const string& str) const{ 

61 return __stl1_ hash_string(str.c_str()); 

62 } 


} " 
64 hash_map<string, Tag, string_hash> keywords ; 
65 public: 
66 Keywords( ); / /关键 字 表 初始 化 


67 Tag getTag(string name); / /测试 是 否 是 关键 字 


68 }; 








确定 了 词法 记号 后 ， 接 下 来 便 是 将 扫描 器 输出 的 字符 序列 转化 为 词 
法 记号 的 序列 ， 这 一 步 由 解析 器 完成 。 如 图 3-1 所 示 ， 解 析 器 读 入 字 
符 ， 使 用 有 限 自 动机 对 输入 字符 进行 匹配 ， 最 终 输 出 词法 记号 。 因 此 在 
描述 解析 器 实现 之 前 ， 还 需要 了 解 如 何 构造 词法 记号 的 有 限 目 动机 。 











3.1.3 有限 自动 机 


在 编译 原理 的 教材 中 ， 对 有 限 自动 机 的 描述 十 分 详细 ， 因 此 我 们 假 
定 读者 了 解 这 方面 的 知识 。 有 限 自动 机 识别 的 语言 称 为 正则 语言 ， 有 限 
自动 机 分 为 确定 的 有 限 自动 机 “DFA〉 和 非 确 定 的 有 限 自 动机 (NFA) 
两 种 。DFA 和 NFA 都 可 以 描述 正则 语言 ，DFA 规 定 只 能 有 一 个 开始 符 
号 ， 且 转移 标记 不 能 为 空 ， 其 代码 实现 较为 方便 。 由 于 每 个 NFA 都 可 以 
转化 为 一 个 DFA， 本 书 的 词法 分 析 器 统一 使 用 DFA 描 述 前 面 定 义 的 所 有 
词法 记号 。 











1. 标 识 符 





在 第 2 章 中 曾 描述 过 标识 符 的 有 限 自动 机 ， 作 为 词法 分 析 过 程 的 例 
子 。 对 于 任意 DFA 总 有 一 个 唯一 的 开始 状态 0， 它 的 输入 是 一 串 字 符 序 
列 ， 根 据 字 符 选择 不 同 的 转移 进入 下 一 个 状态 ， 当 遇 到 结束 状态 时 接收 
已 输入 的 字符 串 。 如 图 3-5 所 示 ， 标 识 符 从 开始 状态 起 ， 当 读 入 下 划 线 
或 字母 时 进入 状态 id， 状 态 id 是 结束 状态 ， 其 本 身 也 可 以 接收 任意 多 个 
下 划 线 、 字 母 和 数字 ， 当 读 入 其 他 不 能 识别 的 字符 时 便 停止 自动 机 的 识 
别 过 程 。 这 正好 符合 C 语 言 对 标识 符 的 定义 ， 以 下 划 线 或 字母 开始 的 任 
意 下 划 线 、 字 母 和 数字 组 合 的 字符 串 。 








_|A-Z |a-z|0-9 


_|A-Z la-z 
=—>(0) 


图 3-5 ”标识 符 有 限 自动 机 





2. 关 键 字 








关键 字 是 一 类 特殊 的 词法 记号 ， 本 质 上 与 标识 符 没 有 任何 区 别 ， 只 
古 词 法 分 析 器 将 之 作为 系统 保留 的 标识 符 ， 不 多 许 用 户 重 新 定义 。 我 们 
在 分 析 标 识 符 结束 后 可 以 查询 关键 字 表 ， 来 确定 当前 识别 的 标识 符 是 普 


通 的 标识 符 还 是 关键 字 。 表 3-2 描 述 了 目 定 义 语言 中 所 有 的 关键 字 。 




















表 3-2 ”关键 字 表 



































关键 字 字符 串 值 词法 标签 
int "EE" KW INT 
char "har” KW CHAR 
void "vole KW VOID 
extern "extern" KE EXTERN 
到 二 二 用 KW IF 
else "else" KW ELSE 
switch Tswiteon” KW SWITCH 
case "case" KW CASE 
default "default" KW DEFAULT 
while "while™ KW WHILE 
do GT KW DO 
for 人 下 二 KW FOR 
break "break" KW BREAK 
continue "continue" KW CONTINUE 
return "return" KW RETURN 








3. 癌 量 











常量 词法 记号 有 三 种 : num、ch 和 str， 它 们 分 别 对 应 数字 常量 、 字 


从 常量 和 字符 串 第 量 。 以 下 分 别 描述 这 三 种 常量 的 自动 机 结构 。 








对 于 数字 常量 ， 本 书 仅 考 虑 整数 常量 ,支持 十 进 制 、 二 进 制 、 八 进 
制 和 十 六 进 制 整数 。 整 数 的 定义 可 以 简单 地 认为 是 数字 0~9 的 任意 组 
合 。 对 不 同 进 制 的 整数 的 定义 如 下 。 


1) 十 进 制 整 数 ， 以 数字 1~9 开 始 ，0~9 中 任意 个 数字 组 合 的 字符 
串 。 


2) 八进制 整数 : 以 数字 0 开始 ，0~7 中 任意 个 数字 组 合 的 字符 串 。 


也 是 为 什么 十 进 制 整数 不 能 以 0 开始 ， 因 为 会 与 八进制 整数 的 定义 冲 


3) 二 进 制 整 数 ， 以 字符 串 “0b” 开 始 ，0~1 中 任意 个 数字 组 合 的 字符 


贡 


4) 十 六 进 制 整 数 ， 以 字符 串 “0x” 开 始 的 ，0~9 及 字母 a~f、A~F 中 一 


个 或 多 个 数字 、 字 母 组 合 的 字符 串 。 








整数 的 有 限 自 动机 如 图 3-6 所 示 ， 其 中 结束 状态 d-num、o-num、b- 
num 和 h-num 分 别 表示 十 进 制 、 八 进 制 、 二 进 制 、 十 六 进 制 整数 的 自动 
机 结束 状态 。 结 束 状态 err 表 示 自 动机 识别 过 程 中 出 现 词法 错误 时 到 达 的 
状态 ， 一 旦 进入 er 状态 便 停止 自动 机 ， 报 告 对 应 的 词法 错误 。 整 数 有 限 
自动 机 从 状态 0 开始 ， 当 读 入 字符 1~9 时 ， 进 入 d-num 状 态 进 行 十 进 制 整 
数 的 识别 。 当 读 入 字符 0 时 转移 到 o-num 状 态 ， 然 后 继续 读 入 字符 ， 如 果 
是 0~7 则 识别 八进制 整数 ， 如 果 读 入 字符 b 则 进行 二 进 制 整数 的 识别 ， 如 
果 读 入 字符 x 则 进行 十 六 进 制 整数 的 识别 。 











0-9|A-Fla-f 


0-9|A-Fla-f 


其 他 
0-1 


并 
G 





图 3-6 ”整数 有 限 目 动机 








字符 常量 是 用 左右 单 引 号 包含 的 一 个 字符 ， 并 且 支 持 特 殊 字 符 的 转 
义 。 比 如 a” 和 ”an' 都 是 合法 的 字符 。 





图 3-7 描 述 了 字符 有 限 自 动机 的 结构 ， 其 中 状态 ch 为 识别 字符 的 结 
束 状态 ，err 为 错误 状态 。 字 符 有 限 目 动机 从 状态 0 开始 ， 读 入 一 个 单 引 
号 字符 进入 状态 1。 再 次 该 入 一 个 普通 字符 进入 状态 3， 或 者 读 入 字符 
\ 和 为 一 个 字符 进行 转 义 字符 的 识别 ， 如 果 读 入 的 字符 是 换行 行 、 文 
件 结束 符 或 单 引 写 则 报错 。 我 们 定义 的 字符 转 义 字符 包括 '\n”、" 
WW、 W 0 和” \”， 换行 符 和 文件 结束 符 是 不 能 转 义 的 ， 示 
定义 的 转 义 字符 作为 普通 字符 对 待 ， 转 义 字 符 的 处 理 在 状态 2 处 完成 。 


状态 3 表示 识别 了 一 个 正常 的 字符 ， 然 后 再 读 入 一 个 单 引号 完成 字符 词 














法 记号 的 识别 ， 除 此 之 外 则 报告 词法 错误 。 


'|\n|-1 








图 3-7 字符 有 限 目 动机 


字符 串 有 限 自动 机 如 图 3-8 所 示 ， 其 中 状态 str 为 识别 字符 串 的 结 
状态 ，err 为 错误 状态 。 字 符 串 有 限 自动 机 从 状态 0 开始 ， 读 入 一 个 双 引 
号 字符 进入 状态 1。 状 态 1 可 以 接收 任意 多 个 普通 字符 ， 如 果 此 时 读 入 字 
符 ' \” 和 另 一 个 字符 ， 则 进入 状态 2 进行 转 义 字符 的 识别 ， 如 果 读 入 的 
字符 是 换行 符 、 文 件 结束 符 则 报错 。 我 们 定义 的 字符 串 转 义 字符 包括 ' 
mA Nt NO 、 换行 "和 ， 其 中 \ 换 行 ' 是 对 
换行 符 转 义 ， 表 示 字 符 串 内 换行 ， 文 件 结束 符 是 不 能 转 义 的 ， 未 定义 的 
转 义 字符 作为 普通 字符 对 待 ， 转 义 字 符 的 处 理 在 状态 2 处 完成 后 回 到 状 
态 1 继续 处 理 。 处 于 状态 1 时 ， 只 要 读 入 一 个 双 引 号 便 完成 了 字符 串 词法 


记号 的 识别 。 











图 3-8 字符 串 有 限 目 动机 


4. 界 符 


词法 记号 中 的 界 符 数 量 较 多 ， 但 是 形式 无 外 乎 两 种 : 单字 市 界 符 和 
双 字 节 界 符 。 比 如 “%” 是 单字 市 界 符 ,， “>=” 是 双 字 节 界 符 。 界 符 的 有 限 
目 动机 结构 比较 简单 。 








单字 节 界 符 有 限 目 动机 如 图 3-9a 所 示 ， 取 模 运 算 符 有 限 上 自动 机 读 入 
一 个 字符”%” 后 进入 结束 状态 ， 完 成 词法 记号 mod 的 识别 。 双 字 节 界 
从 有 限 上 自动 机 如 图 3-9b 所 示 ， 大 于 /大 于 等 于 运算 符 有 限 自 动机 读 入 字符 
>” 进入 结束 状态 gt， 此 时 产生 词法 记 写 gt。 但 是 按照 “ 倪 心 ”的 原则 ， 
此 时 目 动机 如 果 读 入 字符 ”=”′， 则 进入 结束 状态 ge， 产 生词 法 记号 
ge。 其 他 类 型 的 界 符 的 有 限 自动 机 结构 类 似 ， 这 里 就 不 必 一 一 列举 了 。 








a) 
OO 


图 3-9 ” 界 符 有 限 上 自动 机 


我 们 设计 的 词法 记号 中 单字 节 界 符 包 括 +、 -  、 9 、 / 
I 
ES 
束 符 -1， 双 字 节 界 符 包 括 ” ++’” 、'--'、'>=’、’<=’、’'==/、 
1 = 、'”&&' 和 ' | 。 需 要 注意 的 是 ， 界 符 ′ /除了 作为 除法 运 
算 符 外 ， 还 可 以 作为 单行 /多 行 注释 的 开始 。 界 符 ′ | 在 读 入 第 一 个 字 


符 ' |” 时 并 不 能 被 自动 机 接收 ， 因 为 我 们 没有 定义 词法 记号 ' | 。 








5. 无 效 词 法 记号 


除了 以 上 的 词法 记号 外 ， 还 有 两 类 自动 机 没有 涉及 ， 因 为 它们 并 不 
产生 真正 的 词法 记号 ， 我 们 称 为 无 效 词 法 记号。 一 类 是 空白 字符 〈 空 
格 、 制 表 符 、 换 行 符 〉， 男 一 类 是 注释 。 参 考 C 语 言 的 特点 ， 所 有 有 效 
词法 记号 之 间 可 以 出 现任 意 多 个 空白 字符 和 注释 。 














空格 |\+|\n 


E 








图 3-10 ”空白 字符 有 限 自 动机 





如 图 3-10， 空 白字 符 的 有 限 自 动机 非常 简单 ， 它 只 有 一 个 状态 ， 即 
开始 状态 亦 是 结束 状态 ， 并 接收 任意 多 个 空格 、”′ 和 “mn' 。 前 面 
描述 的 有 限 自 动机 识别 结束 后 都 会 产生 一 个 词法 记号 ， 那 么 空白 字符 的 
有 限 自 动机 识别 结束 后 应 该 如 何 处 理 呢 ? 有 两 种 方式 可 以 选择 ， 一 种 是 
不 产生 任何 词法 记号 ， 识 别 结束 后 继续 识别 其 他 词法 记号 。 另 一 种 方式 
是 产生 词法 记号 err， 因 为 词法 记号 err 会 被 词法 分 析 器 或 语法 分 析 器 自 
动 忽略 。 前 面 的 有 限 自 动机 在 识别 出 错时 都 会 产生 词法 记号 err， 因 此 不 


会 影响 后 续 词法 记号 的 识别 。 





























如 图 3-11 所 示 ， 注 释 有 限 自动 机 从 开始 状态 0 读 入 字符 ' /” 后 进入 
结束 状态 div， 此 时 可 以 识别 除法 运算 词法 记号 div。 但 是 按照 < 贪心" 规 
则 ， 如 果 此 时 读 入 字符 /或 ' *' 则 进入 单行 /多 行 注释 的 识别 过 程 。 
单行 注释 内 容 在 状态 1 处 处 理 ， 此 时 读 入 任意 一 行内 容 ， 直 到 遇 到 换行 
符 或 文件 结束 符 后 进入 结束 状态 scom， 识 别 单行 注释 。 多 行 注释 内 容 
在 状态 2 处 处 理 ， 此 时 可 以 读 入 任意 长 度 的 内 容 ， 当 读 入 文件 结束 符 时 











产生 词法 错误 ， 当 读 入 字符 ”* 时 进入 状态 3。 状 态 3 处 如 果 读 入 字符 


'/” 进 入 结束 状态 m-com， 识 别 多 行 注释 ， 如 末 仍 读 入 人 字符” *” 则 继 


续 保持 在 状态 3， 和 否则 返回 状态 2。 状 态 3 可 以 接收 任意 多 个 字符 ' *' 是 


为 了 避免 出 现 %/*..…....**/” 字 符 串 不 能 被 识别 为 注释 的 情况 。 这 里 需要 注 











意 的 是 ， 多 行 注释 不 能 出 现 误 套 的 情况 ， 藤 套 多 行 注释 不 能 被 有 限 目 动 
机 识别 ， 因 为 超出 了 正则 文法 的 描述 能 力 ， 属 于 上 下 文 无 天 文法 。 





其 他 


起 一 







其 他 x 


图 3-11 注释 有 限 目 动机 








无 论 是 单行 注释 还 是 多 行 注释 ， 识 别 结 束 后 都 会 返回 词法 记号 err。 
这 与 空白 字符 有 限 目 动机 的 处 理 有 所 区 别 ， 因 为 注释 的 有 限 目 动 机 包含 
了 除法 运算 符 词 法 记号 的 识别 ， 为 了 保持 代码 的 一 致 性 ， 该 目 动 机 不 得 
不 返回 一 个 词法 记号 。 

















3.1.4 解析 器 





解析 器 的 输入 是 扫描 才 产 生 的 线性 字符 序列 ， 而 输出 是 词法 记号 序 
列 。 解 析 响 的 构造 依赖 于 词法 记号 有 限 目 动机 的 实现 ， 词 法 记号 的 有 限 
自动 机 构造 完毕 后 ， 便 可 以 编码 实现 解析 器 (真正 意义 上 的 词法 分 析 
器 ) ， 完 成 词法 记号 的 解析 。 























根据 有 限 上 自动 机 实现 词法 分 析 霹 一般 有 两 种 方式 : 基于 表 驱 动 的 方 
式 和 硬 编 码 方式 。 基 于 表 驱 动 方式 的 词法 分 析 需 要 为 词法 记号 建立 状态 
转移 表 ， 而 便 编 码 方式 的 词法 分 析 则 使 用 程序 控制 结构 直接 实现 词法 分 
析 。 





1. 基 于 表 驱 动 的 词法 分 析 











表 3-3 是 有 限 目 动机 的 状态 转移 表 ， 这 里 主要 描述 了 标识 符 有 限 目 
动机 的 状态 转移 ， 其 他 词法 记号 有 限 上 自动 机 的 状态 和 转移 被 简化 处 理 。 
表格 的 第 一 列表 示 目 动机 的 当前 状态 ， 表 格 的 第 一 行 表示 目 动机 读 入 的 
当前 字符 ， 即 状态 转移 跌 上 的 字符 ， 单 元 格 凡 表 示 上 自动 机 将 要 进入 的 下 
一 个 状态 ， 这 个 关系 正好 与 目 动 机 的 基本 结构 对 应 。 











表 3-3 ”状态 转移 表 








目 动机 从 状态 0 开始 ， 如 宁 读 入 的 字符 是 ” ”或 ” a-z”′ 中 的 任意 
一 个 小 写字 母 ， 或 ” A-Z”′ 中 的 任意 一 个 大 写字 母 ， 碍 询 状 态 转移 表 得 
到 下 一 个 状态 为 d。 转 移 到 状态 id， 继 续 读 入 的 字符 如 果 是 '”_” 或 小 写 
字母 、 大 写字 母 或 ”0-9'” 中 的 数字 ， 则 仍 进 入 状态 id， 人 否则 转移 到 
accept 状 态 。accept 是 一 个 特殊 的 状态 ， 它 表示 除了 当前 读 入 字符 之 外 
的 所 有 已 读 入 字符 构成 目 动 机 识别 的 字符 串 。 此 时 词法 分 析 圳 根据 进入 
accept 状 态 的 那个 状态 (状态 id〉 决定 词法 记号 的 处 理 结果 ， 即 产生 标 


识 符 的 词法 记号 。 

















需要 注意 的 是 ， 在 进入 accept 状 态 时 读 入 的 字符 并 不 是 自动 机 已 经 
接受 的 字符 。 因 此 ， 在 后 续 的 词法 记号 自动 机 识别 的 过 程 中 ， 需 要 重新 
读 入 当前 字符 ， 以 避免 当前 读 入 字符 被 跳 过 。 为 此 ， 每 次 查询 状态 转移 
表 之 前 并 不 读 入 新 的 字符 ， 而 是 假定 字符 已 经 读 入 。 那 么 自动 机 开始 运 














行 时 ， 需 要 将 当前 字符 初始 化 为 空格 〈 或 者 ， my'，' WW ) ， 这 样 自 
动机 启动 后 会 首先 进入 空白 字符 有 限 自动 机 的 处 理 ， 识 别 这 个 空白 字 
和 。 


基于 表 驱 动 的 词法 分 析 的 伪 代 码 描述 如 下 : 





1 cur_char=" '， / /初始 字条 


2 Token* Lexer::tokenize 


(){ / /词法 记号 解析 


3 cur_state=0; / /初始 状 开 


4 while(1){ / /启动 有 了 


5 next_state=table[cur_state, cur_char]; // 查 表 获 于 


6 if(next_state==accept){ / /接受 状态 


7 return process 


汗 


(cur_state); / /处 理 接受 状 ; 


A 


太 


多 


9 else if(next_state==error){ / /错误 状 下 


10 return lex_error 


(cur_state, cur_char); / /词法 错误 处 理 


11 } 
12 elsef / /正常 状态 


13 handle_state 


(cur_state, cur_char); // 处 理 当前 状态 


14 cur_state=next_state; // 进 入 下 - 





15 cur_char=scan 


(file); / /扫描 获取 下 一 个 字符 








17 } 
18 } 
第 1 行将 当前 读 入 字符 初始 化 为 空格 ， 这 样 第 一 次 调用 tokenize 时 会 





执行 空白 字符 自动 机 识别 的 过 程 。 
第 3 行将 当前 状态 初始 化 为 开始 状态 0， 开 始 词法 记号 的 解析 过 程 。 
第 5 行 得 询 状 态 转 移 表 table， 行 索引 为 cur_state， 列 索引 为 
cur_char。 
第 6~8 行 处 理 accept 状 态 ， 返 回 词 法 记号 。 
第 9~11 行 处 理 err 状 态 ， 进 行 词法 错误 处 理 。 


第 12~16 行 处 理 正常 的 状态 转移 ， 首 先 处 理 当前 状态 和 已 经 接受 的 
字符 ， 比 如 计算 数字 常量 的 值 、 处 理 转 义 字符 等 。 然 后 设 定 cur_state 为 
查询 得 到 的 下 一 个 状态 ， 调 用 扫描 器 读 入 下 一 个 字符 ， 回 到 第 6 行 继续 
词法 记号 解析 。 





使 用 状态 转移 表 进 行 词法 分 析 的 实现 就 是 查询 状态 转移 表 、 状 态 比 
较 和 状态 处 理 的 过 程 ， 实 现 简单 。 词 法 分 析 器 的 自动 生成 工具 一 般 都 采 
用 这 种 方法 。 词 法 分 析 器 自动 生成 工具 根据 用 户 提供 的 词法 记号 定义 配 
置 文件 ， 建 立 词法 记号 有 限 自 动机 NFA， 然 后 将 NFA 确 定 化 为 DFA， 再 
将 DFA 最 小 化 ， 生 成 状态 转移 表 ， 最 后 按照 上 述 过 程 进行 词法 分 析 。 然 











而 ， 主 流 的 编译 器 并 未 采用 表 张 动 的 词法 分 析 方 式 ， 而 是 采用 硬 编 码 的 
方式 ， 可 能 考虑 了 以 下 因素 : 


1) 保存 状态 转移 表 需 要 大 量 的 存储 空间 ， 构 建 状态 转移 表 对 词法 
记号 的 定义 有 很 强 的 依赖 ， 一 旦 更 改 了 词法 记号 的 定义 ， 状 态 转移 表 变 
化 很 大 ， 不 利于 代码 维护 。 








2) 基于 表 驱 动 的 词法 分 析 过 程 形式 虽然 简单 ， 但 是 灵活 性 较 差 ， 
不 利于 对 特定 状态 的 上 自 定 义 处 理 。 所 有 词法 记号 有 限 目 动 机 的 状态 转移 
在 代码 层面 形式 基本 相同 ， 导 致 代码 的 可 读 性 较 差 ， 调 试 不 够 方便 。 














3) 基于 表 驱 动 的 词法 分 析 在 每 次 读 入 一 个 字符 后 都 会 发 生 状 态 转 
移 ， 大 量 的 查 表 、 状 态 比 较 和 状态 处 理 降低 了 词法 分 析 串 的 性 能 。 


因此 ， 本 书 采用 硬 编 码 的 方式 构建 词法 分 析 器 。 
2. 硬 编码 方式 的 词法 分 析 


与 基于 表 驱 动 方式 的 词法 分 析 不 同 的 是 ， 硬 编码 方式 的 词法 分 析 不 
需要 显 式 地 确立 有 限 目 动机 的 状态 ， 它 使 用 程序 的 控制 结构 直接 对 词法 
记号 进行 解析 ， 即 根据 词法 记号 本 身 的 含义 ， 使 用 代码 解析 词法 记号 的 
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号 
容 


2y 


我 们 仍 以 标识 符 为 例 ， 再 次 分 析 标 识 符 的 定义 : 以 下 划 线 、 字 母 开 


始 的 任意 多 个 下 划 线 、 字 母 和 数字 组 合 的 字符 串 。 首 先 对 一 个 标识 符 从 
概念 上 进行 拆 分 ， 一 个 合法 的 标识 符 包 含 两 部 分 : 标识 符 的 第 一 部 分 是 
一 个 字符 ， 它 可 能 是 下 划 线 或 字母 。 标 识 符 的 第 二 部 分 可 以 是 任意 长 度 
的 字符 串 ， 但 是 字符 串 内 的 每 个 字符 必须 是 下 划 线 、 字 母 或 数字 。 根 据 
这 样 的 拆 分 ， 很 容易 发 现 解析 标识 符 的 控制 结构 。 首 先是 一 个 判断 语 
句 ， 判 定 读 入 的 字符 是 不 是 下 划 线 或 字母 ， 以 确定 开始 识别 标识 符 。 然 
后 是 一 个 循环 语句 ， 期 望 读 入 更 多 的 下 划 线 、 字 母 或 数字 。 其 伪 代 码 描 
如 下 : 





Ss 





if( ch== 下 划 线 














ch=scan(file); 
while(ch== 下 划 线 

















ch=scan(file); 





这 样 的 人 硬 编 码 方式 与 表 驱 动 方式 识别 出 的 字符 串 完 全 等 价 ， 而 且 不 
需要 考虑 有 限 目 动机 的 状态 转移 ， 也 完全 消除 了 碍 表 、 判 断 状 态 等 操 
作 。 其 实 ， 硬 编码 中 的 程序 控制 语句 已 经 强 含 了 了 有限 目 动机 状态 的 转移 


我 们 对 有 限 目 动机 做 如 下 处 理 : 将 有 限 目 动机 的 状态 转化 为 一 个 标 
号， 将 每 条 状态 转移 弧 转化 为 一 条 跳 转 到 目标 状态 的 goto 语 句 ， 且 在 每 
条 goto 语 句 前 读 入 新 的 字符 ， 弧 上 的 字符 标签 转化 为 判断 条 件 。 对 于 标 
识 得 的 有 限 自 动机， 我 们 可 以 得 到 如 下 代码 : 





0: 
if (ch== 下 划 线 

















ch=scan(file); 
goto 1; 


} 
goto end; 


if(ch== 下 划 线 














ch=scan(file); 
goto 1; 


} 
goto end; 
end: 


然后 将 这 段 代 码 转化 为 控制 流 图 ， 如 图 3-12 所 示 。 


下 划 线 ! 字 母 





下 划 线 | 字母 | 数字 


图 3-12 ”DFA 与 控制 流 图 


我 们 发 现 ， 根 据 DFA 转 化 得 到 的 代码 控制 流 图 与 前 面 便 编 码 的 程序 
控制 结构 完全 一 致 ， 这 种 将 DFA 直 接 转 化 为 编码 的 方式 一 般 称 为 直接 编 
码 方 式 。 虽 然 使 用 这 种 方式 也 可 以 完成 词法 分 析 需 的 构造 ， 但 是 这 种 方 
式 仍 需要 考虑 上 自动 机 状态 的 转换 ， 并 且 包 伟大 量 的 goto 语 句 ， 代 码 明显 
不 如 硬 编 码 方式 简洁 。 因 此 ， 使 用 硬 编 码 方式 的 词法 分 析 是 较 好 的 选 
择 。 接 下 来 逐一 描述 词法 记号 的 便 编码 实现 。 


(1) 标识 符 





在 前 面 的 章节 中 已 经 描述 了 标识 符 词 法 记号 的 硬 编 码 实现 。 然 而 ， 
在 实际 的 词法 分 析 过 程 中 ， 硬 编码 的 程序 控制 结构 只 是 提供 了 识别 词法 
记号 的 框架 。 对 于 标识 符 来 说 ， 在 词法 分 析 过 程 中 ， 还 需要 记录 标识 从 
的 名 称 ， 创 建 标识 符 词法 记号 对 象 ， 这 需要 在 便 编码 控制 结构 中 插入 相 
天 代码 来 完成 。 识 别 标识 符 词 法 记号 的 代码 如 下 : 




















1 if(ch>='a'&&ch<='z'||ch>='A'&&ch<='Z' ||ch=="'_'){ 
2 string name=""， 

3 dof{ 

4 name.push_back(ch); 





5 scan(); 

6 }while(ch>='"'a'&&ch<='z"'||ch>='A'&&ch<="'Z" 

7 | lch=='_'||ch>='0'&&ch<='9'); / /匹配 结束 
8 Tag tag=keywords.getTag(name); 

9 if(tag==ID) 

10 t=new Id(name); 

11 else 

12 t=new Token(tag); 

13 } 





标识 符 词法 分 析 过 程 中 ， 使 用 name 记 录 接 收 的 字符 。 这 里 仍 假定 当 


前 字符 已 经 提前 读 入 ， 存 储 在 ch 内 。 需 要 注意 的 是 ， 前 面 描述 的 标识 符 


识别 的 程序 控制 结构 是 让 while 形 式 ， 而 这 里 是 让 tdo-whbile 形 式 。 因 为 无 
论 while 语 句 条 件 是 否 成 立 ， 都 会 执行 第 4*5 行 语句 ， 因 此 这 里 可 以 修改 
为 do-while 循 环 。 这 也 从 侧面 说 明了 硬 编码 实现 的 词法 分 析 器 的 编码 灵 


活性 。 





代码 的 第 1~7 行 完成 了 标识 符 词 法 记号 的 识别 ， 并 将 标识 符 的 名 字 


记录 在 变量 name 中 。 第 8 行 通 过 查询 关键 字 表 来 确定 当前 识别 的 字符 串 








古 普通 的 标识 符 还 是 系统 保留 的 关键 字 。 


(2) 关键 字 








我 们 一 直 把 关键 字 当 作 一 类 特殊 的 标识 符 对 等， 甚至 前 面 识别 标识 
符 的 代码 中 都 包含 了 关键 字 词 法 记号 的 生成 。 在 词法 分 析 圳 的 实现 中 ， 
使 用 了 散 列 表 保 存 关 键 字 信息 ， 相 关 代码 如 下 : 











1 /* 


2 关键 字 列 表 初 始 化 


< 
Keywords: :Keywords() 


keywords["int"]=KW_INT; 
keywords["char"]=KwW_CHAR; 
keywords["void"]=KwW_VOID ; 
keywords["extern"]=KwW_EXTERN ; 
keywords["if"]=Kw_IF， 
keywords["else"]=KW_ELSE; 
keywords["switch"]=Kw_ SwITCH; 
keywords["case"]=KW_CASE; 
keywords["default"]=KW_DEFAULT; 
keywords["while"]=KW_ WHILE; 
keywords["do"]=Kw_D0 
keywords["for"]=KW_FOR; 
keywords["break"]=KW_BREAK; 
keywords["continue"]=KW_CONTINUE ; 
keywords["return"]=Kw_RETURN ; 


23 ”测试 是 否 是 关键 字 


24 */ 
25 Tag Keywords: :getTag 


(string name) 
26 { 


27 return keywords.find(name)!=keywords.end() 
28 ?keywords[name] :ID; 
29 } 





在 Keywords 类 的 构造 函数 中 ， 我 们 初始 化 了 关键 字 的 散 列表 
AGO 
调用 Keywords 类 的 getTag 方 法 即 可 。 第 27~28 行 是 一 个 条 件 表达 式 ， 

在 关键 字 表 内 查询 name 是 否 存 在 ， 如 果 存 在 则 返回 散 列 表 记 录 的 关键 字 
标号 ， 和 否则 返回 标识 符 标号 ID。 只 要 在 该 函数 的 调用 处 判断 函数 getTag 
返回 的 词法 标签 是 否 是 ID， 便 能 确定 当前 识别 的 字符 串 是 标识 符 还 是 关 


























我 们 仍 按照 数字 币 量 、 字 符 着 量 、 字 符 串 向量 的 顺序 介绍 常量 词 ; 
记号 的 识别 。 与 标识 符 类 似 ， 仍 然 是 对 词法 记号 在 概念 上 进行 拆 分 ， 以 
确定 识别 词法 记号 的 程序 控制 结构 。 


al 
eal 
到 
Ns 








数字 常量 支持 四 种 进 制 : 和 十进制、 八进制 、 二 进 制 和 十 六 进 制 ， 只 
要 以 数字 0~9 开 始 的 字符 串 都 会 产生 数字 词法 记号 。 十 进 制 整 数 要 求 以 
1~9 开 始 ， 是 任意 多 个 0~9 数 字 的 组 合 。 这 与 标识 符 类 似 ， 是 一 个 if+do- 


while 控 制 结构 。 八 进 制 整数 要 求 以 “0 开始 ， 二 进 制 整数 要 求 以 “0b” 开 
人 ， 十 六 进 制 整 数 要 求 以 “0x” 开 始 。 它 们 拥有 公共 的 前 级 0， 因 此 还 需 
要 读 入 一 个 字符 来 确定 具体 的 数字 进 制 。 如 果 读 入 字符 ' b””， 则 确定 
是 二 进 制 整数 ， 后 边 紧 跟 以 0~1 开 始 的 任意 0~1 组 合 的 字符 串 ， 也 是 一 个 
if+do-while 控 制 结构 。 如 果 读 入 字符 ”x”， 则 确定 是 十 六 进 制 整 数 ， 
后 边 紧 跟 以 0~9、A~Z 或 az 开始 的 ， 任 意 0~9、A~Z 或 az 组 合 的 字符 
串 ， 也 是 itdo-while 控 制 结构 。 如 果 读 入 的 是 0~7 中 的 字符 ， 则 确定 是 
八进制 整数 ， 后 边 紧 跟 任 意 多 个 0~7 数 字 的 组 合 ， 是 一 个 do-while 控 制 结 
构 。 如 果 读 入 的 是 其 他 字符 ， 则 表示 仅 有 一 个 数字 0 被 接受 。 实 现代 码 
如 下 : 











1 if(ch>='0'&&ch<='9')f{ 
2 int val=0; 
3 if(ch!='0"){ 


4 dof 

5 val=val*10+ch-'0',; 

6 scan(); 

7 }while(ch>='0'"&&ch<='9' )) 

8 

9 elsef 

10 scan(); 

11 if(ch=='x'){ 

12 Scan( ); 

13 if(ch>='0'&&ch<='9' ||ch>='A'&&ch<="'F" 

14 | |ch>='a'&&ch<='f' ){ 

15 dof{ 

16 val=val*16+ch; 

17 if(ch>='0'&&ch<='9')val-='0') 

18 else if(ch>='A'&&ch<='F' )val+=10-'A'; 
19 else if(ch>='a'&&ch<='f"' )val+=10-'a'; 
20 scan(); 

21 }while(ch>="'0'&&ch<="'9' | |ch>='A'&&ch<="'F" 
22 | |1ch>='a'&&ch<='f' ); 

23 } 

24 else 


{ 
25 LEXERROR( NUM_HEX_TYPE); / 


26 t=new Token(ERR ) ， 
27 } 


} 
29 else if(ch=='b"'){ / 


30 Scan( ) ， 
31 if(ch>='0'&&ch<='1'){ 
dof{ 
33 val=val*2+ch-'0',， 
34 scan(); 
35 }while(ch>='0'&&ch<="'1" ); 


37 elsef{ 
38 LEXERROR( NUM_BIN_TYPE); // 


39 t=new Token(ERR ) ， 
40 } 


} 
42 else if(ch>='0'&&ch<='7'){ // 八 进 和 


43 do{ 
44 val=val*8+ch-'0'，; 


scan(); 
46 }while(ch>='0'&é8&ch<="'7"); 


} 
49 if(!t)t=new Num(val); / /最 终 数 字 





第 2 行使 用 变量 val 保 存 数字 的 值 ， 初 始 化 为 0。 
第 3~8 行 是 十 进 制 整数 的 识别 过 程 ， 第 9~48 行 是 其 他 进 制 数 的 识别 
过 程 。 


第 11~28 行 是 十 六 进 制 整数 的 识别 过 程 ， 第 24~27 行 处 理 十 六 进 制 整 
数 定义 时 ,，“0x” 之 后 无 有 效 字符 的 词法 错误 。LEXERROR 宏 用 于 输出 词 
法 错误 信息 ， 后 面 会 对 该 宏 进 行 介绍 ， 并 产生 词法 记号 err。 





第 29~41 行 是 二 进 制 整数 的 识别 过 程 ， 第 37~40 行 处 理 二 进 制 整数 定 
义 时 ，*0b” 之 后 无 有 效 字 符 的 词法 错误 。LEXERROR 宏 用 于 输出 词法 错 


误 信 息 ， 产 生词 法 记号 err。 


第 42~47 行 是 八进制 整数 的 识别 过 程 ， 此 处 不 会 产生 词法 错误 。 这 
是 因为 在 进行 非 十 进 制 整数 识别 时 ， 已 经 读 入 字符 ”0”′， 无 论 新 读 入 
的 字符 是 否 是 0~7 数 字 ，0 本 喘 就 是 一 个 合法 的 八进制 整数 。 


第 50 行 根据 数字 识别 过 程 中 计算 得 到 的 val 的 值 创 建 数 字 词 法 记 


= 








对 于 字符 常量 ， 要 求 它 是 由 两 个 单 引 号 包含 起 来 的 唯一 字符 或 一 个 
转 义 字符 。 词 法 分 析 需 读 入 一 个 单 引 号 后 开始 对 字符 音量 进行 识别 。 如 
果 读 入 字符 ”\” 则 继续 读 入 一 个 字符， 并 人 处理 字符 的 转 义 。 如 果 读 入 
为 一 个 单 引 写 ， 则 说 明 两 个 单 引 号 之 间 没 有 有 效 字 符 ， 视 为 词法 错误 。 
如 果 读 入 了 换行 符 或 文件 结束 符 ， 将 导致 词法 错误 。 这 个 过 程 是 一 个 典 
型 的 这 控制 结构 。 如 果 被 转 义 的 字符 是 换行 符 或 文件 结束 符 ， 则 字符 词 
法 记号 识别 失败 。 否 则 进行 正常 的 转 义 字符 处 理 。 这 也 是 一 个 这 控 制 结 
构 ， 实 现代 码 如 下 : 








1 if(ch=='\''){ 


2 char c; 

3 scan(); 

4 if(ch=="'\\')t{ // 转 义 
5 scan() 


6 if(ch=2'n' )c='\n', 





7 else if(ch=="'\\')c="'\\"; 

8 else if(ch=="'t')c="'\t'; 

9 else if(ch=='0')c="'\0'; 

10 else if(ch=="'\"'')c="'\"'"; 

11 else if(ch==-1||ch=='\n'){ / /文件 结束 
换行 

12 LEXERROR(CHAR_NO_R_QUTION); 

13 t=new Token (ERR); 

14 } 

15 else c=ch,; // 没 有 转 义 

16 } 

17 else if(ch=='\n'||ch==-1){ / /换行 
文件 结束 

18 LEXERROR( CHAR_NO_R_QUTION); 

19 t=new Token(ERR); 

20 

21 else if(ch=="'\''){ // 没 有 数据 

22 LEXERROR(CHAR_NO_DATA) ， 

23 t=new Token(ERR ) ， 

24 Scan( ) ; // 读 掉 引号 

25 

26 else c=ch / /正常 字符 

27 if(!t){ 

28 if(scan('\''))t / /匹配 右 侧 引号 

/ 读 掉 引号 

29 t=new Char(c); 

30 } 

31 elsef 

32 LEXERROR(CHAR_NO_R_QUTION); 

33 t=new Token (ERR); 

34 } 

35 } 

36 } 








第 2 行使 用 变量 c 记 录 识 别 的 字符 。 


第 4~16 行 识别 转 义 字符 ， 第 11~14 行 处 理 不 能 转 义 的 字符 ， 报 告 词 
法 错误 。 

第 17~20 行 处 理 字符 词法 记号 内 出 现 换行 符 或 文件 结束 符 时 的 词法 
# 误 。 

第 21~25 行 处 理 两 个 单 引号 之 间 无 有 效 字符 的 情况 。 注 意 这 里 识别 
右 单 引号 后 需要 主动 读 入 下 一 个 字符 ， 不 再 将 这 个 右 单 引号 作为 下 一 个 
词法 记号 的 开始 。 





第 27~35 行 识别 字符 词法 记号 的 右 单 引号 ， 第 29 行 产生 字符 词法 记 
号 ， 第 31~34 行 处 理 右 单 引 号 丢失 的 词法 错误 。 














字符 串 常量 与 字符 常量 的 识别 相似 ， 要 求 它 是 由 两 个 双 引 号 包含 起 
来 的 字符 和 转 义 字符 的 任意 组 合 ， 包 括 空 串 。 词 法 分 析 器 读 入 一 个 双 引 
号 后 开始 ， 并 期 望 读 入 另 一 个 双 引 号 完成 字符 串 常量 的 识别 ， 这 是 一 个 
while 控 制 结构 。 如 果 读 入 字符 ' \ 则 继续 读 入 一 个 字符 ， 处 理 字符 的 
转 义 。 如 果 读 入 了 换行 符 或 文件 结束 符 ， 将 导致 词法 错误 。 这 个 过 程 是 
一 个 if 控制 结构 。 如 果 被 转 义 的 字符 是 文件 结束 符 ， 则 字符 串 词 法 记号 
识别 失败 。 否 则 进行 正常 的 转 义 字符 处 理 。 这 也 是 一 个 if 控制 结构 ， 实 
现代 码 如 下 : 








1 if(ch=="'"'){ 

2 string str="",; 

3 while(!scan('™"'))t{ 

4 if(ch=="'\\'){ // 转 义 





法 


法 








5 scan(); 

6 if(ch=='n"')str.push_back('\n'); 

7 else if(ch=="'\\"')str.push back('\\'); 

8 else if(ch=="'t"')str.push_back('\t'); 

9 else if(ch=="'"')str.push_back('"'); 

10 else if(ch=="'0')str.push back('\0'); 

11 else if(ch=="'\n'),; / /字符 串 换行 
12 else if(ch==-1){ 

13 LEXERROR(STR_NO_R_QUTION ) ， 

14 t=new Token(ERR); 

15 break; 

16 

17 else str.push_back(ch); 

18 } 

19 else if(ch=='\n'||ch==-1){ / /文件 结束 
20 LEXERROR(STR_NO_R_QUTION ) ， 

21 t=new Token (ERR); 

22 break; 

23 } 

24 else 

25 str.push_back(ch); 

26 

27 if(!t)t=new Str(str),; / /最 终 字符 串 
28 } 





第 2 行使 用 变量 str 记 录 识 别 的 字符 串 。 


第 4~18 行 识别 转 义 


错误 


日 天。 


字符 ， 第 12~16 行 处 理 不 能 转 义 的 字符 ， 报 告 词 


第 19~23 行 处 理 字符 串 词法 记号 内 出 现 换 行 符 或 文件 结束 符 时 的 词 


错误 


日 天。 


第 27 行 产生 字符 串 词法 记号 。 


(4) 界 符 


我 们 按照 界 符 词 法 记号 的 长 度 将 界 符 分 为 两 类 : 单字 节 界 符 和 双 字 
节 界 符 。 单 字 市 界 符 的 识别 非常 简单 ， 下 接 根 据 读 入 的 字符 确定 界 符 的 
词法 标签 ， 创 建 词法 记号 对 象 ， 然 后 读 入 下 一 个 字符 作为 后 继 词法 记号 
识别 的 开始 。 例 如 单字 节 界 符 ”%′， 妆 读 入 字符 ' % ”后 直接 创建 词 
法 记号 ”9%”′ 。 使 用 伪 代 码 描述 如 下 : 





If(ch=='%' ){ 
t=new Token(MOD ) ， 
Scan( ) 








而 对 于 双 字 节 界 符 的 识别 ， 需 要 该 入 两 个 字符 以 确定 界 符 的 词法 标 
签 。 例 如 双 字 节 界 符 ”>=”′， 需 要 在 读 入 字符 ” >” 后 ， 再 次 读 入 一 个 
字符 ， 并 判断 是 否 是 字符 “= 来 确定 识别 的 词法 记号 是 ” >”′ 还 是 ”>= 
′。 这 里 需要 注意 的 是 ， 如 果 读 入 字符 '>' 后 ， 再 次 读 入 的 字符 不 是 ”= 
′， 则 产生 ′>“” 词法 记号 ， 后 续 的 词法 记号 从 当前 读 入 的 字符 开始 继 
续 识 别 。 如 果 再 次 读 入 的 字符 是 ” =”， 则 产生 ′>= ”词法 记号 ， 后 续 
的 词法 记号 应 该 从 下 一 个 字符 开始 继续 识别 ， 即 词法 分 析 器 的 “ 贫 心 规 
则 ， 通 过 调用 扫描 器 获取 下 一 个 字符 。 使 用 伪 代 码 描述 ′>=”′ 词 法 记号 
的 识别 过 程 如 下 : 








if(ch=="'>' ){ // 进 入 


>' 或 


>=” 的 识别 


Tag tag=GT; / /暂时 确定 为 


Scan( ) 
If(ch=='='){ 
>=" 
tag=6E; 
>=" 
Scan( ) ， 
} 
t=new Token(tag); 
} 


// 读 入 下 个 字符 


/ /判定 是 否 是 ， 


并 
贡 
并 


/ /重新 确定 为 ' 


// 读 入 下 一 个 字符 


/ /创建 词法 记号 





使 用 这 样 的 方式 识别 双 字 节 界 符 比较 繁琐 ,为 简化 识别 双 字 节 界 符 


的 过 程 重新 设计 封装 scan 的 接口 ， 代 码 如 下 : 





1 /* 
2 封装 的 扫描 方法 


3 “#7 
4 bool Lexer::scan 


(char need=0) 
5 芋 


6 ch=scanner ,scan( ) ; 


7 if(need){ 
8 if(ch!=need) 


/ /扫描 出 字符 


/ /与 预期 不 吻合 


9 return false; 


10 ch=scanner .Scan( ) ; / /与 预期 吻合 ， 扫 描 下 - 
11 return true; 

12 

13 return true; 

14 } 





重新 封装 的 scan 附 加 了 参数 need， 并 默认 为 0， 这 样 直接 调用 
scan () 时 与 原本 的 scan 功 能 相同 。 如 果 调 用 scan 时 指定 了 参数 ， 则 判 
其 扫描 出 的 字符 是 否 与 need 相 等 。 如 果 不 等 则 返回 false， 表 示 扫 描 出 的 
字符 与 指定 参数 need 不 匹配 ， 人 否则 继续 扫描 ， 读 入 新 的 字符 ， 返 回 
true。 这 样 ， 无 论 读 入 的 字符 是 侣 与 参数 匹配 ， 当 前 字符 位 置 都 保存 了 
下 一 个 词法 记号 开始 匹配 的 字符 。 使 用 重新 封 效 的 scan 函 数 处 理 上 述 
>=”′ 词 法 记号 的 识别 可 以 用 条 件 表 达 式 完成 。 





























if(ch=='>'){ / /进入 ' 
5 或 ' 
>=” 的 识别 
t=new Token(Sscan( '=')?GE:GT)， / /自动 处 理 词法 记号 的 种 类 
} 





将 所 有 的 界 符 的 识别 过 程 放 在 一 个 switch-case 语 句 内 ， 得 到 的 实现 
代码 如 下 : 





1 switch(ch){// 界 符 


co ~IODIOJOI 上 ON 


48 


CaSe '+': 
CaSe '-': 
CaSe '*!: 


case '/': 


Case '%': 
Case '>': 
Case '<': 
Case '=': 
Case '&': 


case '|': 


t=new 


Token(scan('+')?INC:ADD);break; 
Token(scan('-')?DEC:SUB);break; 


Token(MUL);scan();break; 


Token(DIV);scan();break; 
Token(MOD);scan();break,; 
Token(scan('=")?GE:GT);break,; 
Token(scan('="')?LE:LT);break; 
Token(scan('=")?EQU:ASSIGN);break,; 


Token(scan('&' )?AND:LEA);break; 


Token(scan('|')?0R:ERR); 


if(t->tag==ERR) 


break; 
case '!': 
t=new 
Case ',! 
t=new 
Case i:': 
t=new 
Case ')': 
t=new 
case '(': 
t=new 
case ')': 
t=new 
case '[': 
t=new 
case '] ': 
t=new 
case '{': 
t=new 
case '}': 
t=new 
case -1: 
default: 


t=new 


LEXERROR( OR_NO_PAIR); 


Token(Sscan( '=')?NEQU:NOT) ;break 
Token(COMMA) ;Scan( );break ' 
Token(COLON) ;Scan();break 
Token(SEMICON) ;Scan( );break 
Token(LPAREN); scan();break; 
Token(RPAREN ) ;Scan( );break; 
Token(LBRACK); scan();break; 
Token(RBRACK); scan();break; 
Token(LBRACE) ;Scan( );break; 
Token(RBRACE) ;Scan( );break; 


t=new Token(END);scan();break; 


Token(ERR) ， 


LEXERROR( TOKEN_ NO_EXIST); 
scan(); 


// | | 没有 一 对 


/ /错误 的 词 ; 





可 见 使 用 封装 后 的 scan 实 现 的 界 符 解析 代码 更 加 人 简洁， 不 过 仍 有 几 


扩 需 要 注意 。 
第 8 行 处 理 ' /字符 时 ， 还 未 考虑 注释 的 解析 ， 稍 后 会 详细 介绍 。 
第 20 行 处 理 ”|” 字符 时 ， 厦 不 能 匹配 词法 记号 和， 则 产生 词法 
音 误 ， 因 为 我 们 没有 定义 词法 记号 ”| 。 
第 46 行 处 理 不 符合 文法 定义 的 字符 的 情况 ， 统 一 视 作 错误 词法 记 


号 





《5) 无 效 词法 记号 





由 
I 
世 


每 次 进行 词法 记号 识别 之 前 ， 词 法 分 析 占 会 尽 可 能 忽略 
通过 一 个 while 循 环 结构 很 容易 做 到 这 点 。 

















1 while(ch==' '||ch=='\n'||ch=='\t') / /忽略 空白 符 


2 scan(); 





/ /处 ; 


/一 


对 于 注释 ， 可 以 从 概念 上 拆 分 ， 描 述 它 的 识别 过 程 。 注 释 分 为 单行 
注释 和 多 行 注释 ， 单 行 注释 以 ′//” 引 时 ， 多 行 注释 以 /引导 ， 它 
们 包含 公共 的 前 级 /， 把 它们 与 除法 运算 符 词法 记号 ′/” 放 在 一 起 


处 理 。 因 此 词法 分 析 露 读 入 字符 ′/” 后 需要 再 读 入 一 个 字符 ， 来 确定 
古 合 是 注释 。 

如 果 新 读 入 的 字符 是 ” /”， 则 确定 为 单行 注释 。 此 后 词法 分 析 器 
可 以 接收 任意 多 个 任意 字符 ， 直 到 遇 到 换行 符 或 文件 结束 为 止 。 使 用 
while 循 环 结构 可 以 处 理 单 行 注释 的 识别 。 





如 果 新 读 入 的 字符 是 *”′”， 则 确定 为 多 行 注释 。 词 法 分 析 器 可 以 
接收 任意 多 个 非 文件 结束 符 字 符 ， 直 到 遇 到 字符 ′ *”′ 时 才 进 行 后 继 的 
处 理 ， 这 个 过 程 使 用 while 循 环 处 理 。 在 多 行 注释 处 理 过 程 中 ， 如 果 遇 
到 字符 ′ *”′， 还 需要 党 试 跳 过 连续 的 ' *” 字 符 ， 这 是 一 个 内 柑 的 
while 循 环 。 如 果 读 入 字符 ' *” 后 再 次 读 取 的 字符 是 ”/” 则 完成 多 行 注 
释 的 识别 ， 人 否则 仍 看 作 多 行 注释 内 部 的 内 容 ， 继 续 前 面 的 处 理 ， 这 有 是 一 
个 简单 的 if 控 制 语句 。 实 现代 码 如 下 : 








1 case '/': 
2 





scan(); 
3 if(ch=='/'){ / /单行 注释 
4 while(!(ch=='\n' || ch== -1)) / /不 是 换行 符 、 
5 scan(); 
6 t=new Token(ERR); 
7 } 
8 else if(ch=='*'){ / /多 行 注释 
9 while(!scan(-1))t{ / /一 直 扫 描 ， 


10 if(ch=='*' ){ // 出 现 


11 while(scan('*')); // 跳 过 注释 F 


12 if(ch=="'/"'){ / /多 行 注释 
13 t=new Token(ERR); 

14 break; 

15 } 

16 } 

17 } 

18 if(!t&&ch==-1)f / /未 正常 结束 注释 
19 LEXERROR( COMMENT_NO_END); 

20 t=new Token (ERR); 

21 

22 } 

23 else 

24 t=new Token(DIV); 

25 break; 








第 3~7 行 处 理 单行 注释 的 识别 ， 只 要 不 是 换行 符 或 文件 结束 符 ， 就 
一 直 扫 描 。 





第 8~22 行 处 理 多 行 注释 的 识别 ， 第 10~16 行 处 理 多 行 注 释 内 出 现 字 
符 ' */ 的 情况 ， 第 12~15 行 处 理 多 行 注 释 的 结尾 ， 第 18~21 处 理 多 行 注 
释 在 遇 到 ′ ”时 文件 结束 的 情况 。 


第 24 行 处 理 除 法 运算 符 的 识别 。 





前 面 提 到 ， 对 于 无 效 的 词法 记号 ， 词 法 分 析 器 有 两 种 处 理 方式 : 不 
做 任何 处 理 ， 或 返回 错误 词法 记号 err。 如 果 采 取 不 做 任何 处 理 的 方式 ， 
就 需要 在 词法 分 析 右 内 将 错误 词法 记号 忽略 控 。 具 体 的 实现 代码 如 下 : 








1 for(;ch!=-1;)t{ / /开始 识别 词法 记号 


2 Tokenxt=NULL / /词法 记号 指针 






































3 while(ch==' '||ch=='\n'||ch=="'\t') / /忽略 空 自 和 
4 scan(); 

5 / /处理 其 他 词法 记号 的 识别 
6 if(token)delete token; / /删除 旧 的 词法 记号 

7 token=t ， / /记录 新 的 词法 记号 

8 if(token&&token->tag!=ERR) / /有效 词法 记号 

9 return token; / /返回 词法 记号 


10 else 
11 continue; / /继续 识别 新 的 词法 记号 








我 们 将 词法 记号 的 识别 过 程 放 在 for 循 环 内 ， 循 环 终止 条 件 是 过 到 文 
件 结束 符 。 


第 2 行使 用 t 记 录 创 建 的 词法 记号 对 象 指针 。 


第 3~4 行 用 于 跳 过 空白 字符 。 





第 6~11 行 对 产生 的 词法 记号 进行 处 理 。 第 6~7 行 将 当前 新 建 的 词法 
记号 对 象 指针 保存 在 token 中 。 第 8 行 如 果 判 断 出 当前 创建 的 词法 记号 是 


普 误 词 法 记号 ， 则 继续 识别 新 的 词法 记号 ， 忽 略 错误 词法 记号 。 人 否则 返 








回 有 效 的 词法 记号 ， 传 递 给 语法 分 析 器 。 这 样 ， 对 于 语法 分 析 器 来 说 ， 
是 不 会 接收 到 错误 的 词法 记号 的 。 





3.1.5 ”错误 人 处理 


在 词法 分 析 的 过 程 中 会 出 现 词法 错误 的 情况 ， 需 要 进行 错误 处 理 。 
词法 分 析 的 错误 处 理 只 需要 报告 相应 的 词法 错误 信息 ， 并 给 出 错误 出 现 
的 行 号 和 列 号 。 在 我 们 实现 的 词法 分 析 圳 中 处 理 的 词法 错误 如 表 3-4 上 所 


修 。 














词法 错误 类 型 词法 错误 类 型 
STR NO R QUTION 字符 串 丢 失 右 引号 
NUM BIN TYPE 二 进 制 数 没有 实体 数据 
NUM HEX TYPE 十 六 进 制 数 没有 实体 数据 
CHAR NO R QUTION 字符 丢失 右 单 引 号 
不 支持 空 字符 


CHAR NO DATA 





OR_NO_PAIR 


错误 的 “或 ”运算 符 





COMMENT NO_END 


多 行 注释 没有 正常 结束 





TOKEN NO EXIST 








词法 记号 不 存在 


在 扫描 器 中 计算 字符 的 行 和 列 的 位 置 ， 且 保存 处 理 的 源 文件 名 。 根 
据 表 3-4 提 供 的 词法 错误 信息 ， 很 容易 完成 具体 位 置 的 词法 错误 信息 输 


出 。 相 关 实 现代 码 如 下 : 








/* 


词法 错误 类 型 


Dp 


[0%) 


*/ 
4 enum LexError 


12 


STR_NO_R_QUTION, 


NUM_BIN_TYPE, 


NUM_HEX_TYPE, 


CHAR_NO_R_QUTION, 


CHAR_NO_DATA， 


OR_NO_PAIR, 


COMMENT_NO_END, 


TOKEN_NO_EXIST 


}; 
/ * 
打印 词法 错误 
*/ 


void Error::lexError 


(int code){ 


18 static const char *lexErrorTable[]={ 


19 





二 进 制 数 没有 实体 数据 


十 六 进 制 数 没有 实体 数据 





/ /词法 错误 信息 串 


/ /字符 串 没 有 右 引 号 





/ /二进制 数 没有 实体 数据 





/ /十 六 进 制 数 没 有 实体 数据 


/7 字符 没有 右 引号 


/7 字符 没有 数据 
/11 只 有 一 个 


/ /多 行 注释 没有 正常 结束 


/ /不 存在 的 词法 记号 





了 
24 "错误 的 


运算 符 
nm 
了 
25 "多 行 注释 没有 正常 结束 
mm 
类 
26 "词法 记号 不 存在 
1 
27 } 


28 errorNum++， 
29 printf("%s<%d 行 


7 %d 列 


> 词法 错误 


: %S.NXn'"， 
30 scanner->getFile(), 
31 scanner->getLine(), 
32 scanner->getCol(), 
33 lexErrorTable[codel] 
34 ); 


36 #define LEXERROR 


(code) Error::lexError(code) 





第 1~13 行 使 用 枚 举 类 型 LexError 记 录 所 有 词法 错误 的 类 型 。 


第 14~35 行 定义 输出 词法 错误 信息 的 函数 lexError， 其 中 数组 
lexErrorTable 保 存 与 词法 错误 类 型 对 应 的 信息 。 第 28 行 使 用 变量 
errorNum 记 录 编 译 器 产生 的 错误 数 。 第 29~34 行 调用 扫描 器 的 方法 获取 
词法 错误 产生 位 置 所 在 的 文件 名 、 行 号 和 列 号 。 


第 36 行 使 用 宏 LEXERROR 封 装 lexError 函 数 的 调用 。 


人 至此， 我 们 详细 介绍 了 词法 分 析 圳 的 所 有 实现 细节 ， 接 下 来 进行 语 
法 分 析 时 ， 只 需 调 用 词法 分 析 惕 的 tokenize 函 数 ， 便 可 以 获得 源 文 件 内 
定义 的 所 有 词法 记号 。 





32 有 何人 本 


语法 分 析 器 获取 词法 分 析 器 提供 的 线性 词法 记 写 序列 ， 根 据 局 级 语 
言 文法 的 结构 ， 识 别 不 同 的 语法 模块 。 图 3-13 拉 述 了 语法 分 析 器 的 结 
构 。 





词法 记号 一 语法 模块 
|W 
图 3-13 ”语法 分 析 器 结构 


经 过 语法 分 析 器 的 处 理 后 ， 高 级 语言 源 代码 在 编译 器 内 部 表现 为 一 
标 完 整 的 抽象 语法 树 ， 抽 象 语法 树 的 子 树 〈 包 括 抽象 语法 树 本 映 ) 也 称 
为 语法 模块 。 局 级 语言 的 文法 朋 接 影响 语法 分 析 器 的 结构 ， 在 介绍 语法 
分 析 器 的 构造 之 前 ， 需 要 明确 高 级 语言 的 文法 定义 。 





1 VEE 


Chomsky 于 1956 年 建立 了 形式 语言 的 描述 ， 他 把 文法 分 为 四 种 类 
型 ， 即 0 型 、1 型 、 2 型、3 型 ， 这 四 种 文法 插 述 的 语言 范围 是 依次 缩减 
的 。 其 中 3 型 文法 ( 即 正则 文法 ) 描述 了 正则 语言 ， 前 面 讨论 的 词法 记 
号 属于 3 型 文法 ， 使 用 有 限 目 动机 可 以 完成 正则 语言 的 识别 。 而 2 型 文法 
〈 即 上 下 文 无 天文 法 ) 描述 了 程序 设计 语言 ， 需 要 使 用 文法 分 析 算 法 完 
成 程序 设计 语言 的 识别 。 














在 编译 原理 的 教材 中 ， 描 述 了 大 量 的 文法 分 析 算 法 。 包 括 自 项 向 下 
的 LL (1) 分 析 、 自 底 向 上 的 LR 分 析 等 。LL (1) 分 析 对 文法 的 要 求 比 
LR 分 析 严 格 ， 它 不 允许 文法 中 的 产生 式 出 现 左 公 因 子 和 左 递归 ， 因 此 
构造 LL〈1) 文法 时 需要 避免 出 现 左 公 因子 和 左 递归 。 虽 然 LR 分 析 对 文 
法 的 要 求 比 较 宽 松 ， 但 是 LR 分 析 器 手工 构造 较为 复杂 。 鉴 于 LL (1) 文 
法 足以 描述 本 文 所 实现 的 语言 ， 本 书 采用 LL (1) 分 析 器 分 析 自 定义 语 
言 的 文法 。 主 流 的 编译 器 GCC 也 是 使 用 LE 分析 堪 完 成 C 语 言 的 语法 分 
析 ， 不 过 GCC 使 用 的 是 LL (2) 分 析 算 法 。 

我 们 知道 ， 词 法 分 析 器 将 高 级 语言 源 代 码 转化 为 线性 的 词法 记号 序 
列 ， 从 语法 分 析 器 的 角度 来 看 ， 高 级 语言 程序 是 由 词法 记号 序列 组 合 而 
成 。 在 语法 分 析 过 程 中 ， 词 法 记号 被 称 为 终结 符 。 将 一 组 词法 记号 子 序 








列表 示 的 抽象 含义 独立 出 来 ， 使 用 符号 表示 ， 这 些 抽象 符 写 被 称 为 非 终 


寸 太太 


拓 们 。 
如 果 使 用 <type> 表 示 自 定义 语言 的 数据 类 型 ， 根 据 本 书 对 自 定义 语 


言 特性 的 定义 ， 数 据 类 型 包含 int、char 和 void 三 种 基本 类 型 ， 因 此 使 用 
关于 和 表示 2 





<type>->KW_INT | KW_CHAR | Kw_VvoID 





其 中 KW_INT、KW_CHAR、KW_VOID 三 个 词法 记号 分 别 对 应 
int、char、void 关 键 字 词 法 记号 ， 称 为 终结 符 。<type> 作 为 这 三 个 词法 
记号 的 抽象 含义 ， 被 称 为 非 终结 符 。 产 生 式 的 含义 为 非 终结 符 <type> 可 
以 推导 出 终结 符 KW_INT、KW_CHAR 或 KW_VOID。 构 造 文法 的 过 程 
其 实 就 是 对 高 级 语言 结构 逐 层 解析 的 过 程 ， 接 下 来 完 根据 自 定义 语言 的 
特性 ， 详 细 解 析 文 法 的 构造 过 程 。 





1. 高 级 语言 程序 





本 书 设计 的 自 定义 语言 是 C 语 言 的 子 集 ， 因 此 可 以 参考 C 语 言 的 语 
法 结构 。C 语 言 程 序 一 般 由 变量 声明 、 变 量 定义 、 函 数 声明 、 函 数 定义 
组 合 而 成 ， 如 果 使 用 非 终结 符 <program> 表 示 高 级 语言 程序 ， 使 用 
<segment> 表 示 组 成 程序 的 片段 。 那 么 使 用 产生 式 表示 高 级 语言 程序 与 
程序 片段 的 关系 如 下 : 








<program>-><segment><program> 





通过 递归 形式 的 定义 ，<program> 可 以 推导 出 任意 多 个 <segment>， 
正好 表示 高 级 语言 程序 由 任意 多 个 程序 片段 组 成 的 含义 。 但 是 高 级 语言 
程序 包含 的 程序 片段 肯定 是 有 限 多 个 ， 上 述 推导 的 结果 是 无 限 多 个 程序 
片段 ， 因 此 我 们 需要 给 推导 过 程 一 个 终止 条 件 。 





<program>->s 





我 们 使 用 特殊 终结 符 e 表 示 空 的 终结 符 ， 只 要 <program> 的 推导 过 程 
中 使 用 该 条 产生 式 ， 便 可 以 终止 递归 推导 的 过 程 。 同 一 个 非 终 结 符 的 产 
生 式 可 以 合并 ， 使 用 符号 ”| ”连接 产生 式 的 右 侧 部 分 。 





<program>-><segment><program> | : 





消除 左 递 归 





细心 的 读者 会 发 现 ， 既 然 可 以 使 用 递归 形式 的 产生 式 表示 “任意 多 
个 ”的 含义 ， 那 么 上 述 产 生 式 也 可 以 表示 为 如 下 形式 : 





<program>-><program><segment> | : 





这 样 的 产生 式 称 为 左 递归 形式 ， 前 面 给 出 的 是 右 递归 形式 ， 它 们 表 
示 的 含义 完全 等 价 。 但 是 LL(1) 文法 不 允许 产生 式 出 现 左 递归 ， 因 此 
我 们 应 该 尽 可 能 消除 左 递归 ， 左 递归 消除 规则 为 : 











对 于 包含 左 递 归 的 产生 式 S->Salb (其 中 大 写字 母 表示 非 终结 符 ， 小 
写字 母 表示 终结 符 )， 引 入 新 的 非 终结 符 S， 将 原 产生 式 改写 为 ; 











S->bS' 
S'->aS' | *s 





此 对 于 <program> 的 左 递归 定义 <program>-><program><segment>| 
gs， 改写 后 的 形式 为 : 





<program>->s 


<program'> 
<program'>-><segment><program'> | * 





产生 式 <program>->e<program'> 等 价 于 <program>-><program'>， 这 
条 产生 式 是 见 余 的 ， 可 以 消除 。 使 用 终结 符 <program> 代 蔡 


<program'>， 即 得 到 最 初 的 产生 式 <program>-><segment><program>|e。 


将 高 级 语言 程序 <program> 拆 分 为 程序 片段 <segment> 后 ， 对 
<segment> 进 行 折 分。 程序 片段 包含 变量 声明 、 变 量 定义 、 函 数 声明 和 


函数 定义 ， 代 码 示 例如 下 : 





extern int name; / /变量 
name 声 明 

extern int name(); / /函数 
name 声 明 

int name / /变量 
name 定 义 

int *name; / /指针 变量 
name 定 义 

int name( ){} / /函数 
name 定 义 

int name(); / /函数 
name 声 明 





可 见 ， 使 用 extern 关 键 字 引导 的 代码 肯定 是 声明 ， 紧 跟 extern 之 后 的 
是 数据 类 型 ， 否 则 引导 的 代码 可 能 是 定义 ， 也 可 能 是 函数 声明 。 我 们 使 
用 如 下 产生 式 表示 <segment>。 





<segment>->KW_EXTERN <segment'> | <segment'> 
<segment'>-><type><def> 
<type>->KwW_INT | Kw_CHAR | Kw_VOID 


根据 是 否 包含 extern 将 <segment> 分 为 两 类 ， 并 使 用 <segment> 表 示 
公共 的 部 分 。 公 共 的 部 分 一 般 由 类 型 非 终 结 符 开始 ， 后 面 可 能 是 变量 


名 、 函 数 名 或 指针 变量 ， 我 们 使 用 <def> 作 为 它们 的 统称 。 








由 于 <segment> 只 有 一 种 推导 方式 ， 因 此 可 以 将 之 合并 到 <segment> 
的 产生 式 内 。 





<segment>->KW_EXTERN <type><def> | <type><def> 


<type>->KW_INT | KW_CHAR | Kw_VvoID 





提取 左 公 因子 


或 许 读者 好 奇 为 什么 大 费 周章 地 将 <segment> 做 如 此 的 拆 分 ， 而 不 
是 直接 使 用 产生 式 表示 它 的 结构 ， 比 如 。 





<segment>->KW_EXTERN KW_INT <def> 
| KW_EXTERN KW_CHAR <def> 
| KW_EXTERN KW_VOID <def> 








我 们 发 现 ， 如 此 定义 的 <segment> 的 产生 式 右 侧 出 现 了 相同 的 词法 
记号 KW_EXTREN， 称 为 左 公 因子 。LL (1) 文法 通过 超前 查看 一 个 词 
法 记号 来 选择 具体 使 用 哪个 产生 式 作为 下 一 步 的 推导 ， 左 公 因 子 的 出 现 
导致 无 法 做 出 唯一 的 选择 ， 因 此 需要 提取 左 公 因子 。 





对 于 包含 左 公 因子 的 产生 式 “S->aAlaB”， 引 入 新 的 非 终 结 符 S'， 将 
原 产 生 式 改 号 为 ; 





S->aS' 
S'->A | B 





此 时 A 和 B 也 不 能 出 现 左 公 因子 ， 否 则 继续 按照 上 述 过 程 改写 。 将 
前 面 <segment> 产 生 式 改写 后 ， 得 到 : 





<segment>->KW_EXTERN <Segment '> 
<Segment '>->KW_INT <def> | KW_CHAR <def> | KWwW_ VOID <def> 





非 终结 符 <segment> 的 每 个 产生 式 右 侧 的 首部 可 以 合并 为 非 终结 符 
<type>， 因 此 得 到 : 





<segment'>-><type><def> 
<type>->KWw_INT | Kw_CHAR | KW_VvoID 





这 样 惑 回 到 前 面 对 <segment> 定 义 的 过 程 。 





这 里 有 一 个 细节 需要 注意 ， 根 据 <segment> 的 产生 式 定 义 ， 发 现 如 
下 特殊 代码 是 可 以 被 <segment> 识 别 的 。 





extern int name(){} 





这 种 由 extern 关 键 字 引导 的 函数 name 的 定义 是 符合 我 们 定义 的 文法 
规则 的 ， 但 这 不 是 合法 的 C 语 言 代 码 ， 按 照 我 们 对 文法 的 定义 是 不 能 发 





现 这 个 问题 的 。 虽 然 可 以 通过 不 同 的 <def> 形 式 来 完成 这 种 区 分 ， 但 是 
这 样 做 让 文法 显得 更 加 复杂 。 对 于 这 种 情况 ， 可 以 将 这 种 合法 性 检查 推 
述 到 语义 分 析 时 进行 。 语 义 分 析 时 ， 针 对 带 有 exterm 关 键 字 的 函数 定义 
代码 ， 会 报告 语义 错误 。 这 也 说 明了 一 点 ， 在 语法 分 析 过 程 中 难以 或 者 
无 法 处 理 的 问题 ， 可 以 由 语义 分 析 来 辅助 解决 。 


完成 非 终结 符 <segment> 的 拆 分 后 ， 接 下 来 是 继续 拆 分 非 终 结 符 


<def> 的 结构 。 


2. 声 明 与 定义 








非 终 结 符 <de 从 表示 了 变量 函数 的 定义 结构 和 不 带 extern 关 键 字 的 函 
数 声 明 ， 以 下 是 满足 <def> 定 义 的 示例 代码 。 





int name; / /未 初始 化 变量 
name 定 义 

int name=1; / /常量 初始 化 变量 
name 定 义 

int name=a+b; / /表达 式 初始 化 变量 
name 定 义 

int name,name2; / /变量 定义 列表 


int *ptr,arr[10]; // 指 针 


ptr 和 数组 


arr 定 义 


void fun(); // 子 数 


fun 声 明 


void fun(){} / /函数 


fun 定 义 


int fun(int x[10],char* y); / /有 参数 的 函数 


fun 声 明 





满足 <def> 的 代码 非常 多 ， 如 何 进行 合理 的 划分 很 关键 。 首 先 考虑 
变量 的 定义 ， 按 照 引 导 词 法 记号 可 以 将 变量 分 为 两 类 : 以 标识 符 ID 开 始 
的 变量 或 数组 和 以 词法 记号 MUL 开 始 的 指针 。 其 中 变量 和 数组 的 定义 
包含 左 公 因子 ID， 因 此 需要 提取 左 公 因 了 于 。 变 量 和 指针 是 可 以 使 用 表达 
式 初 始 化 的 (独立 的 第 量 、 变 量 也 是 表达 式 ) ， 为 了 简化 起 见 ， 不 允许 
对 数组 初始 化 。 使 用 <defdata> 表 示 所 有 变量 的 定义 ， 则 产生 式 表示 为 : 














<defdata>->ID <varrdef> | MUL ID <init> 


<varrdef>->LBRACK NUM RBRACK | <init> 


<init>->ASSIGN <expr> | * 


非 终结 符 <varrdef> 表 示 变 量 和 数组 的 定义 ，<init> 表 示 初 始 化 部 
分 ，<expr> 表 示 表达 式 ， 其 定义 在 后 面具 体 描述 





由 于 我 们 允许 使 用 变量 定义 列表 定义 多 个 变量 ， 除 了 第 一 个 定义 的 
变量 外 ， 后 继 的 变量 定义 都 是 以 '，' 进 行 分 隔 ， 并 且 可 能 出 现任 意 
次 。 使 用 非 终结 符 <deflist> 表 示 除 了 第 一 个 变量 定义 外 剩余 的 部 分 ， 其 
放下 





<deflist>->COMMA <defdata><deflist> | SEMICON 














这 里 <deflist> 仍 使 用 左 递归 定义 表示 任意 多 
个 “COMMA<defdata>” 的 组 合 ， 并 使 用 分 号 词法 记号 SEMICON 终 止 左 
递归 的 无 限 推导 过 程 。 





这 样 一 来 ， 使 用 非 终结 符 组 合 *“<defdata><deflist>” 便 可 以 表示 所 有 
的 变量 定义 结构 。 


再 考虑 函数 的 定义 和 声明 。 函 数 的 定义 和 声明 拥有 公共 的 首部 ， 包 
会 函数 名 、 左 插 写 、 形 式 参 数列 表 和 右 插 号。 使 用 <fun> 表 示 函 数 的 定 
义 和 声 明 (除去 返回 类 型 的 部 分 ) ， 使 用 <para> 表 示 形 式 参 数列 表 ， 使 
用 <block> 表 示 函 数 体 ， 于 是 有 : 








<fun>->ID LPAREN <para> RPAREN SEMICON 
| ID LPAREN <para> RPAREN <block> 





提取 左 公 因子 后 得 到 : 





<fun>->ID LPAREN <para> RPAREN <funtail> 
<funtail>->SEMICON | <block> 





那么 对 于 <def> 的 定义 ， 可 以 描述 为 ; 





<def>-><defdata><deflist> | <fun> 





然而 ， 这 个 产生 式 是 不 满足 LL (1) 文法 的 ， 因 为 非 终 结 符 
<defdata> 和 <fun> 有 公共 的 左 公 因子 ID! 为 了 解决 这 个 问题 ， 需 要 将 
<def> 展 开 。 





<def>->ID <varrdef><deflist> 
| MUL ID <init><deflist> 
| ID LPAREN <para> RPAREN <funtail> 





然后 合并 包含 左 公 因子 ID 的 产生 式 ， 完 成 <def> 的 拆 分 。 





<def>->ID <idtail> | MUL ID <init><deflist> 


<idtail>-><varrdef><deflist> | LPAREN <para> RPAREN <funtail> 


<funtail>->SEMICON | <block> 





根据 <def> 的 定义 ， 函 数 的 返回 值 类 型 只 能 是 基本 类 型 ， 而 不 能 是 
指针 类 型 ， 这 是 本 书 对 文法 的 简化 。 另 外 ， 文 法 定义 中 允许 出 现 void 类 
型 的 变量 ， 这 个 问题 也 留待 语义 分 析 时 解决 。 





3. 函 数 


冰 数 声明 和 定义 中 使 用 <para> 表 示 形 式 参 数列 表 ， 函 数 定义 中 使 用 
<block> 表 示 函 数 体 的 内 容 。 


为 了 简化 文法 的 构造 ， 对 于 形式 参数 的 定义 及 其 类 型 ， 我 们 做 了 如 
下 几 点 限制 : 


1) 形式 参数 名 称 不 能 省 略 。 
2) 形式 参数 不 允许 有 默认 值 。 
3) 数组 参数 必须 指定 数组 长 度 。 


除 此 之 外 ， 形 式 参 数 和 变量 定义 的 文法 基本 一 致 。 使 用 <paradata> 
表示 一 个 形式 参数 去 除 类 型 的 部 分 ， 其 产生 陈 为 : 





<paradata>->MUL ID | ID <paradatatail> 


<paradatatail>->LBRACK NUM RBRACK | * 





于 是 ， 使 用 非 终 结 符 组 合 “<type><paradata>” 便 可 以 表示 一 个 完整 
的 形式 参数 。 


形式 参数 列表 包含 一 个 形式 参数 以 及 后 继 的 以 ，' 分 割 的 任意 多 个 


形式 参数 的 组 合 。 使 用 非 终结 符 <paralist> 表 示 形 式 参数 列表 除了 第 一 个 
形式 参数 之 外 的 部 分 ， 使 用 左 递归 形式 定义 的 产生 式 如 下 : 





<paralist>->COMMA <type><paradata><paralist> | : 





使 用 非 终 结 符 组 合 “<type><paradata><paralist>” 便 可 以 表示 完整 的 
形式 参数 列表 ， 当 然 ， 形 式 参数 也 可 以 为 空 。 





<para>-><type><paradata><paralist> | : 








接 下 来 拆 分 函数 体 <block>。 函 数 体 是 由 人 花 括号 包含 起 来 的 局 部 变 
量 定义 或 语句 的 组 合 ， 因 此 <block> 的 产生 式 如 下 : 











<block>->lbrac<subprogram>rbrac 


<subprogram>-><localdef><subprogram> 


|<statement><subprogram> 


E 





非 终 结 符 <subprogram> 表 示 子 程序 的 内 容 ，<localdef> 表 示 局 部 变 


量 定 义 ，<statement> 表 示 语 句 。 这 里 需要 留意 <localdef> 和 <statement> 





是 否 有 左 公 因 子 ， 由 于 <localdef> 都 是 以 类 型 词法 记号 引导 的 ， 而 
<statement> 不 存在 以 类 型 词法 记号 开始 的 情况 ， 因 此 不 存在 左 公 因子 。 











局 部 变量 定义 和 前 面 描述 的 全 局 变量 的 定义 完全 相同 ， 因 此 其 产生 
式 为 : 


<localdef>-><type><defdata><deflist> 





由 于 自 定 义 语言 支 持 C 语 言 常 用 的 语句 ， 因 此 语句 的 文法 定义 比较 
复杂 。 因 为 <statement> 中 包含 了 表达 式 ， 所 以 我 们 先 描述 表达 式 的 文 
法 ， 然 后 再 讨论 <statement> 的 文法 定义 。 





这 里 从 一 般 形式 的 表达 式 开始 讨论 表达 式 的 文法 。 使 用 符号 “@” 表 
示 通 用 的 表达 式 运 算 符 ， 使 用 小 写字 母 表示 表达 式 的 操作 数 ， 那 么 表达 
式 有 如 下 形式 : 











a9 





可 见 ， 表 达 式 的 文法 也 是 使 用 递归 的 产生 式 表示 : 


<expr>-><operand><exprtail> 
<exprtail>-><operator><operand><exprtail> | SEMICON 
<operator>->e 


<operand>->a | b|c..|z 


对 于 表达 式 “atb*c; ”， 经 上 述 文法 处 理 后 ， 得 到 的 抽象 语法 树 形 
式 如 图 3-14 所 示 。 


抽象 语法 树 的 结构 实际 上 是 对 产生 式 展开 后 的 形式 ， 叶 子 节点 表示 
终结 符 ， 非 叶子 节点 表示 非 终 结 符 ， 父 节点 到 子 节点 的 展开 表示 一 次 产 
生 式 的 推导 过 程 。 在 非 终结 符 <exprtail> 上 ， 我 们 进行 表达 式 的 语义 解析 
过 程 。 在 第 一 级 <exprtail> 子 树 处 ， 根 据 读 取 的 左 操 作 数 'a'、 运 算 符 '+' 和 
右 操 作 数 b' 构 建 表达 式 “atb”， 结 果 保 存 到 临时 变量 "t1'。 在 第 二 级 
<exprtail> 子 树 处 ， 根 据 读 取 的 左 操作 数 '1、 运 算 符 党 和 右 操 作 数 'c 构 建 
表达 式 “tl*c"， 结 果 保 存 到 临时 变量 't2' 中 。 在 第 三 级 <exprtail> 子 树 处 ， 
读 取 操 作 数 t2'， 此 处 不 再 有 新 的 运算 符 和 操作 数 ， 因 此 不 构建 任何 表达 
起 


我 们 发 现 ， 按 照 抽 象 语法 树 的 解 术 方式 ， 表 达 式 “atb*c” 实 际 被 解 
析 为 ”at+b) *c”， 这 错误 地 解析 了 表达 式 的 原 有 含义 ! 而 按照 运算 符 
优先 级 的 规定 ， 原 表达 式 应 该 被 解析 为 “at+ (b*c) ”。 因 此 ， 使 用 通用 


的 运算 符 的 概念 构造 表达 式 文法 并 不 可 靠 ， 我 们 需要 在 文法 内 反映 出 运 


算 符 的 优先 级 特性 。 
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图 3-14 ”表达 式 “atb*c” 抽 象 语法 树 
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构造 保持 运算 符 优先 级 特性 的 文法 的 方法 是 将 高 优先 级 运算 符 形 


成 的 表达 式 整 体 作为 低 优 先 级 运算 符 形成 的 表达 式 的 操作 数 。 


按照 运算 符 优先 级 构建 表达 式 文法 ， 识 别 表 达 式 “atb*c” 的 抽象 语 


法 树 形 式 如 图 3-15 所 示 。 
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图 3-15 ”考虑 运算 符 优先 级 的 表达 式 “atb*c” 抽 象 语法 树 
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考虑 运算 符 的 优先 级 后 ， 运 算 符 * 的 表达 式 子 树 优 先 被 处 理 。 在 非 
终结 符 <item> 处 ， 根 据 读 取 的 左 操作 数 b'、 运 算 符 党 和 右 操作 数 '"c 构 建 
表达 式 “b*c”， 结 果 保 存 到 临时 变量 "t1' 中 。 在 非 终 结 符 <exprtail > 处， 根 
据 读 取 的 左 操 作 数 'a、 运 算 符 '+' 和 右 操 作 数 't1' 构 建 表达 式 “att1”， 结 
保存 到 临时 变量 "t2' 中 。 通 过 这 种 方式 可 以 正确 解析 表达 式 “atb*c” 的 原 
有 含义 。 


根据 运算 符 的 优先 级 ， 我 们 重新 构造 表达 式 的 文法 。 





<expr>-><item><exprtail> 
<exprtail>-><op-low><item><exprtail> | SEMICON 
<op-low>->+ 

<item>-><factor><itemtail> 


<itemtail>-><op-high><factor><itemtail> | : 


<op-high>->* 
<factor>->a | b|c..|z 





从 前 面 的 讨论 可 以 看 出 ， 运 算 符 的 优先 级 影响 表达 式 的 文法 ， 那 么 
运算 符 的 结合 性 是 否 也 对 表达 式 文法 有 影响 呢 ? 回顾 图 3-15 表 达 式 的 抽 
象 语 法 树 ， 我 们 发 现在 非 终 结 符 <exprtail> 或 <itemtail> 处 ， 可 以 进行 灵 
活 的 选择 。 例 如 对 于 非 终结 符 <exprtail>， 可 以 选择 : 





1) 按照 运算 符 <op-low> 将 右 操作 数 <item> 与 前 面 的 左 操作 数 
<item> 结 合 ， 再 处 理 后 面 的 表达 式 <exprtail>。 这 种 方式 称 为 运算 符 的 左 
结合 ， 比 如 表达 式 “a+b+c” 被 处 理 为 * (a+b) +c”。 


2) 先 按照 <exprtail> 提 供 的 运算 符 ， 将 右 操 作 数 <item> 与 后 面 的 表 
达 式 <exprtail> 进 行 结合 ， 再 按照 运算 符 <op-low>， 将 得 到 的 结 末 与 前 面 
的 左 操作 数 <item> 进 行 结合 。 这 种 方式 称 为 运算 符 的 右 结 合 ， 比 如 表达 
式 “a=b=c” 被 处 理 为 “a= (b=c) ”。 


办 此， 运算 符 的 结合 性 不 影响 表达 式 文法 的 构造 。 通 过 对 表达 式 语 
义 不 同 方式 的 处 理 ， 可 以 正确 地 表达 运算 符 的 结合 性 ， 在 后 面 代码 生成 
部 分 会 对 其 做 详细 的 描述 。 





表 3-5 给 出 了 所 有 运算 符 的 优先 级 和 结合 性 ， 其 中 运算 符 的 优先 级 
值 越 小 ， 优 先 级 越 蜗 。 


表 3-5 ”运算 符 优先 级 与 结合 性 









































运算 符 党 受 优先 级 结合 性 

和 赋值 10 右 结 合 

| | 逻辑 或 9 左 结 合 

ce 逻辑 与 8 左 结合 
= = = De - 左 结 合 
a 加 法 、 减 法 6 左 结 合 

本 估 :: 乘法 、 除 法 、 取 模 5 左 结 合 

! -& * ++ —- 迎 辑 非 、 取 负 、 取 址 、 指 针 、 前 兽 ++、 前 置 -- 4 右 结合 
+ 二 一 一 后 置 ++、 后 置 -- 3 右 结合 

a de 2 左 结 合 

时 好 数组 索引 、 函 数 调 用 1 左 结合 





根据 运算 符 的 优先 级 ， 可 以 按照 前 面 讨论 的 方法 构造 自 定义 语言 表 
达 式 的 文法 。 从 最 低 优 先 级 的 赋值 运算 符 到 最 高 优先 级 运算 符 的 表达 式 
文法 的 构造 方式 如 下 。 





赋值 表达 式 的 运算 符 为 ASSIGN， 包 含 两 个 逻辑 “或 "表达 式 操作 
数 。 赋 值 表达 式 <assexpr> 的 文法 为 : 





<assexpr>-><orexpr><asstail> 


<asstail>->ASSIGN <orexpr><asstail> | * 





严格 来 说 ， 赋 值 运算 符 的 左 操作 数 只 能 是 左 值 表达 式 。 效 辑 “ 或 " 表 
达 式 一 定 是 右 值 表达 式 ， 古 不 能 作为 赋值 运算 符 的 左 操作 数 的。 这 个 问 
题 也 滞后 到 语义 分 析 时 进行 处 理 。 








逻辑 “或 ?表达 式 的 运算 符 为 OR， 包 含 两 个 逻辑 “与 ?表达 式 操 作 数 。 
逻辑 “或 ”表达 式 <orexpr> 的 文法 为 : 





<orexpr>-><andexpr><ortail> 


<ortail>->OR <andexpr><ortail> | =* 





逻辑 “与 ”表达 式 的 运算 符 为 AND， 包 含 两 个 关系 表达 式 操作 数 。 逻 
辑 “ 与 ?表达 式 <andexpr> 的 文法 为 : 





<andexpr>-><cmpexpr><andtail> 


<andtail>->AND <cmpexpr><andtail> | * 





关系 表达 式 的 运算 符 为 GTIGEILTILEIEQUINEQU， 包 含 两 个 算术 表 
达 式 操作 数 。 关 系 表达 式 <cmpexpr> 的 文法 为 : 





<cmpexpr>-><aloexpr><cmptail> 


<cmptail>-><cmps><aloexpr><cmptail> | : 


<Cmps>->GT | GE | LT | LE | EQU | NEQU 





算术 表达 式 的 运算 符 为 ADDISUB， 包 含 两 个 项 表达 式 操作 数 。 算 


术 表 达 式 <aloexpr> 的 文法 为 : 





<aloexpr>-><item><alotail> 


<alotail>-><adds><item><alotail> | * 


<adds>->ADD | SUB 





项 表达 式 的 运算 符 为 MULIDIVIMOD， 包 含 两 个 因子 表达 式 操作 
数 。 项 表达 式 <item> 的 文法 为 : 





<item>-><factor><itemtail> 


<itemtail>-><muls><factor><itemtail> | * 


<muls>->MUL | DIV | MOD 





因子 表达 式 的 运算 符 为 NOTISUBILEAIMULIINCRIDECR， 包 含 一 
个 仍 为 因子 表达 式 的 操作 数 ， 因 子 表达 式 可 以 是 值 表达 式 。 因 子 表达 式 
比较 特殊 ， 运 算 符 出 现在 操作 数 的 左 侧 。 因 子 表达 式 <factor> 的 文法 
为 : 





<factor>-><lop><factor>|<val> 


<lop>->NOT | SUB | LEA | MUL | INCR | DECR 


值 表达 式 的 运算 符 为 INCRIDECR， 包 含 一 个 元 素 表达 式 操作 数 。 
值 表 达 式 比较 特殊 ， 运 算 符 出 现在 操作 数 的 右 侧 ， 且 只 能 出 现 一 次 。 引 
入 值 表 达 式 主要 是 方便 循环 语句 内 循环 因子 的 自 加 或 自 减 。 值 表达 式 
<val> 的 文法 为 : 





<val>-><elem><rop> 


<rop>->INCR | DECR 





元 素 表 达 式 不 包含 运算 符 ， 它 是 表达 式 的 基本 操作 数 单 元 。 束 我 们 
所 知 ， 可 以 参与 表达 式 运 算 的 操作 有 变量 、 数 组 、 函 数 调 用 、 括 号 表达 
式 和 和 常量。 元 素 表 达 式 <elem> 的 文法 为 : 





<elem>->ID 

ID LBRACK <expr> RBACK 

ID LPAREN <realarg> RPAREN 
LPAREN <expr> RPAREN 
<literal> 








其 中 前 三 条 产生 式 包含 左 公 因子 ID， 提 取 左 公 因 子 后 得 到 : 





<elem>->ID <idexpr> | LPAREN <expr> RPAREN | <literal> 


<idexpr>->LBRACK <expr> RBRACK | LPAREN <realarg> RPAREN | * 








函数 调用 的 实际 参数 列表 是 由 运 号 分 割 的 表达 陈列 表 或 为 空 ， 文 法 


如 下 : 





<realarg>-><arg><arglist> |s 


<arglist>->COMMA <arg><arglist> | : 


<arg>-><expr> 





常量 包含 数 字 、 字 符 和 字符 目 ， 





<literal>->NUM | CH | STR 





这 样 ， 我 们 完成 了 赋值 表达 式 的 文法 构造 。 由 于 没有 比 赋值 运算 符 
更 低级 的 运算 符 ， 因 此 表达 式 直 接 用 赋值 表达 式 表示 : 





<expr>-><assexpr> 





考虑 循环 语句 内 循环 条 件 使 用 的 表达 式 可 以 为 空 ， 因 此 我 们 使 用 非 
终结 符 <altexpr> 表 示 可 以 为 空 的 表达 式 。 





<altexpr>-><expr> |s 





至 此 ， 我 们 完成 了 表达 式 文法 的 构造 。 


4. 语 名 





完成 表达 式 的 文法 构造 后 ， 语 句 的 文法 构造 束 比 较 容易 了 。 上 自 定 义 
语言 包含 的 语句 有 表达 式 语 句 ，while、do-while、for 循 环 语句 ，if- 


else、switch-case 分 支 语句 ， 以 及 break、continue 和 return 语 人 句 。 








语句 的 文法 定义 如 下 : 





<statement>-><altexpr>SEMICON 


| <whilestat>|<forstat>|<dowhilestat> 


| <ifstat>|<switchstat> 


| KW_BREAK SEMICON 


| KW_CONTINUE SEMICON 


| KW_RETURN <altexpr> SEMICON 





while 循 环 语句 的 文法 如 下 : 





<whilestat>->Kw_WHILE LPAREN <altexpr> RPAREN <block> 








其 中 <altexpr> 多 许 循 环 条 件 为 空 ， 空 循环 条 件 表示 水 真 。<block> 表 示 
循环 体 ， 与 函数 体内 容 等 价 。 


do-while 循 环 语句 的 文法 为 : 





<dowhilestat>->KW_DO <block> KW_WHILE LPAREN <altexpr> RPAREN SEMICON 





for 人 循环 语句 的 文法 为 : 





<forstat>->KW_FOR LPAREN <forinit><altexpr> SEMICON <altexpr> RPAREN <block> 


<forinit>-><localdef> | <altexpr> SEMICON 











其 中 <forinit> 表 示 for 循 环 的 初始 化 语句 ， 它 可 以 是 局 部 变量 的 定义 ， 也 
可 以 是 表达 式 语句 。 


if-else 分 文 语句 的 文法 为 : 





<ifstat>->KW_IF LPAREN <expr> RPAREN <block><elsestat> 


<elsestat>->KwW_ELSE <block> | * 








其 中 让 语 句 的 条 件 表 达 式 不 多 许 为 空 ， 因 此 使 用 <expr> 表 示 ， 而 不 是 


<altexpr>，else 语 句 可 以 不 存在 。 


switch-case 分 支 语 句 的 文法 为 : 





<switchstat>->KW_SwWITCH LPAREN <expr> RAPREN LBRAC <casestat> RBRAC 


<casestat>->KW_CASE <caselabel> COLON <subprogram><casestat> 


| KW_DEFAULT COLON <subprogram> 


<caselabel>-><literal> 





其 中 ， 非 终结 符 <casestat> 表 示 多 个 case 语 句 ， 且 以 default 语 句 结 
束 。<caselabel> 表 示 case 的 标签 ， 必 须 是 数字 或 字符 常量 ， 而 不 能 是 字 


符 串 常量 ， 这 个 问题 在 需要 语义 分 析 时 进行 解决 。 














通过 构造 语句 的 文法 ， 我 们 可 以 得 出 一 个 结论 : 表达 式 为 程序 提供 
真正 的 计算 ， 语 句 为 程序 提供 控制 流程 ， 函 数 为 程序 提供 功能 封装 ， 全 


局 变量 为 程序 提供 信息 共享 。 














人 至此， 我 们 完成 了 所 有 文法 的 定义 。 接 下 来 ， 就 是 根据 文法 定义 构 
建 语 法 分 析 器 ， 识 别 程序 的 语法 模块 。 


3.2.2 ”递归 下 降 子 程序 


前 面 讨 论 过 ， 我 们 使 用 LL (1) 文法 分 析 算 法 可 以 完成 高 级 语言 的 
语法 分 析 。 一 般 编 译 原理 教材 中 ， 描 述 了 通过 计算 LL (1) 文法 的 
FIRST、FOLLOW 和 SELECT 集 合 ， 构 建 LL(1) 分 析 表 进行 语法 分 
析 ， 这 有 点 类 似 基 于 表 驱 动 的 词法 分 析 。 本 书 不 讨论 LL (1) 分 析 表 的 
构建 方法 ， 对 此 感 兴趣 的 读者 可 以 参考 编译 原理 相关 教材 。 我 们 仍 采 
用 “ 硬 编码 ”的 方式 进行 LL(1) 分 析 ， 即 递归 下 降 子 程序 。 





递归 下 降 子 程序 实现 的 语法 分 析 串 是 由 一 系列 的 子 程序 完成 的 ， 不 
同 的 子 程序 负责 识别 不 同 的 语法 模块 。 由 于 语法 模块 与 抽象 语法 子 树 一 
一 对 应 ， 且 抽象 语法 子 树 是 由 非 终 结 符 通 过 产生 式 展 开 形 成 ， 因 此 每 个 
非 终结 符 与 子 程序 一 一 对 应 。 子 程序 有 可 能 是 递归 的 ， 说 明子 程序 可 以 
完成 重复 形式 的 语法 模块 识别 ， 这 与 右 递 归 形 式 的 产生 式 是 对 应 的 。 从 
这 一 点 也 能 说 明 LL (1) 文法 的 产生 式 为 何不 能 出 现 左 递归 ， 因 为 左 递 
归 的 子 程序 无 法 终止 。 从 抽象 语法 树 的 形式 上 看 ， 递 归 下 降 子 程序 是 从 
树 根 的 非 终 结 符 开始 ， 依 次 展开 直达 叶子 节点 ， 是 一 个 自 顶 向 下 的 过 
程 。 抽 象 语 法 树 的 展开 由 产生 式 的 推导 形成 ， 产 生 式 右 侧 的 终 绩 符 直 接 
与 输入 的 词法 记号 进行 匹配 ， 产 生 式 右 侧 的 非 终 结 符 转化 为 对 应 子 程序 
的 函数 调用 。 

















处 理 完 B(i=1..n)? 





执行 产生 式 4 语义 动作 


图 3-16 递归 下 降 子 程序 的 构造 


图 3-16 描 述 了 递归 下 降 子 程序 的 构造 方法 ， 其 构造 规则 描述 如 下 : 





1) 文法 中 的 每 个 非 终 结 符 对 应 一 个 子 程 序 ( 函 数 ) 。 





2) 文法 中 的 每 个 产生 式 对 应 子 程序 内 的 一 个 分 支 。 


3) 产生 式 中 的 非 终结 符 转 化 为 对 应 子 程序 的 调用 。 





4) 产生 式 中 的 终结 符 与 当前 读 入 的 词法 记号 进行 匹配 。 





5) 终结 符 与 当前 读 入 的 词法 记号 匹配 失败 时 ， 需 要 报告 语法 错 
误 ， 并 进行 相应 的 错误 修复 。 


6) 产生 式 处 理 时 ， 需 要 执行 当前 子 程序 分 文 相关 的 语义 动作 ， 比 
如 符号 表 管 理 、 语 义 分 析 和 代码 生成 。 


举例 说 明 ， 例 如 while 循 环 语句 的 文法 。 





<whilestat>->KW_WHILE LPAREN <altexpr> RPAREN <block> 





按照 上 述 规 则 构造 <whilestat> 的 递归 下 降 子 程序 为 : 





1 void Parser: :whilestat 


() 

25 法 

3 match(KW_WHILE 

) 

4 if(!match(LPAREN 

) ) 

5 recovery(EXPR_FIRST||F(CRPAREN ) 

6 ; LPAREN_LOST, LPAREN_WRONG ) ， 
7 altexpr 

(); 

8 if(!match (RPAREN 

)) 

9 recovery(F(LBRACE), RPAREN_LOST, RPAREN_ WRONG); 
10 block 


产生 式 左 侧 的 非 终结 符 <whilestat> 转 化 为 子 程序 whilestat。 


第 7、10 行 将 非 终 结 符 <altexpr> 和 <block> 转 化 为 子 程序 altexpr 和 
block 的 调用 。 


第 3、4、8 行 使 用 match 函 数 对 终结 符 KW_WHILE、LPAREN、 
RPAREN 进 行政 配 ，match 的 函数 功能 与 词法 分 析 器 的 scan 函 数 类 似 。 





1 void Parser::move 


— 


( 
2 1{ 
3 look=lexer .tokenize( ); 
4 } 

5 bool Parser::match 

(Tag need) 

6 


7 if(look., 


tag==need ){ 
8 


move( ) ， 
9 return true 
10 } 
11 else 
12 return false; 
13 } 





其 中 move 函 数 使 用 词法 分 析 堪 的 tokenize 函 数 读 取 词法 记号 ， 并 将 
之 记录 到 变量 look 中 《保存 了 当前 读 入 的 竺 匹配 的 词法 记号 ) 。match 
将 参数 need 与 读 入 的 词法 记号 进行 匹配 ， 匹 配 成 功 后 读 入 下 一 个 词法 记 
号 ， 返 回 真 。 人 否则 ， 返 回 假 ， 不 继续 读 入 词法 记号 。 








whilestat 函 数 的 第 3 行使 用 match 函 数 匹配 KW_WHILE 时 并 未 判断 终 


结 符 是 否 匹 配 ， 这 是 因为 <statement> 产 生 式 包含 <whilestat>，statement 


子 程序 在 调用 whilestat 之 前 已 经 判断 了 look 是 KW_WHILE， 因 此 match 
必然 返回 真 。 而 对 LPAREN 和 RPAREN 则 需要 判断 是 否 与 1ook 匹 配 ， 不 
匹配 时 则 调用 recovery 函 数 报告 语法 错误 并 进行 错误 恢复 。 错 误 恢 复 算 
法 的 实现 在 后 面 会 具体 描述 。 





对 于 非 终 结 符 <whilestat>， 它 只 包含 一 条 产生 式 ， 因 此 子 程序 


whilestat 内 只 有 一 个 分 支流 程 。 





<statement>-><altexpr>SEMICON 
<whilestat>|<forstat>|<dowhilestat> 
<ifstat>|<switchstat> 

KW_BREAK SEMICON 

KW_CONTINUE SEMICON 

KW_RETURN <altexpr> SEMICON 





而 对 于 非 终 结 符 <statement> 则 包含 多 个 产生 式 ， 其 子 程序 statement 





switch(look->tag) 


OQON ~ 


{ 
case KwW_WHILE:whilestat 


();break; 
6 case KW_FOR:forstat 


();break; 
7 case KwW_DO:dowhilestat 


();break; 
8 case Kw_IF:ifstat 


();break; 
9 case KW_SWITCH :Switchstat 


();break; 
10 


case KW_ BREAK 


move( ); 
if(!match(SEMICON 


recovery (TYPE_FIRST | |STATEMENT_FIRST | |F (RBRACE) 
, SEMICON_LOST,SEMICON_ WRONG); 
break; 
case KW CONTINUE 


move( ); 
if(!match(SEMICON 


recovery(TYPE_FIRST| |STATEMENT_FIRST| |F(RBRACE ) 
SEMICON_LOST, SEMICON_WRONG ) ， 
break 
case KW_RETURN 


move( ); 
altexpr 


if(!match(SEMICON 


recovery (TYPE_FIRST | |STATEMENT_FIRST | |F (RBRACE) 
SEMICON_LOST, SEMICON_WRONG ) ， 
break 
default: 
altexpr 


if(!match(SEMICON 


recovery (TYPE_FIRST| |STATEMENT_FIRST | |F (RBRACE) 
, SEMICON_LOST, SEMICON_ WRONG); 








由 于 look 保 存 的 是 当前 读 入 的 待 匹配 的 词法 记号 ， 第 3 行 根 据 look 的 


tag 字 上 段 对 应 的 终结 符 选 择 相 应 的 产生 式 。 


第 5~9 行 实现 了 以 非 终 结 符 开 始 的 产生 式 ，case 标 签 的 值 为 该 非 终 
结 符 的 FIRST 集 。 假 如 某 个 非 终结 符 的 FIRST 集 合 元 素 个 数 大 于 1， 则 应 
该 使 用 if 分 支 语句 蔡 换 switch 语 句 。 





第 10~33 行 实现 了 以 终结 符 开始 的 产生 式 ，case 标 签 的 值 为 产生 式 


的 第 一 个 终结 符 。 


从 递归 下 降 子 程序 的 实现 来 看 ， 可 以 发 现 构造 LL〈1) 文法 时 提取 
左 公 因 子 的 原因 。 这 是 因为 产生 式 包 含 左 公 因 子 时 ， 递 归 下 降 子 程序 无 
法 通过 条 件 判断 选择 唯一 的 分 支流 程 。 








回 到 文法 定义 的 第 一 条 产生 式 : 





<program>-><segment><program> | =* 








这 种 类 型 的 产生 式 比较 特殊 ， 因 为 产生 式 内 包含 空 终结 符 e。 空 终 
结 符 不 是 有 效 的 词法 记 写 ， 因 此 不 能 通过 对 look 的 判断 来 决定 不 同 产生 
式 的 选择 。 当 产生 式 为 空 终结 符 时 ， 使 用 产生 式 左 侧 的 非 终 结 符 的 
FOLLOW 集 合作 为 选择 产生 式 的 条 件 。 





SELECT 集合 


在 编译 原理 教材 中 ， 有 关 LL (1) 分 析 的 章节 中 会 讨论 SELECT 集 
合 的 概念 ，SELECT 和 集合 的 定义 如 下 : 


给 定 产生 式 A->a， 如 果 a 不 能 推导 出 空 终 结 符 sg， 则 SELECT (A- 
>a) =FIRST (a) 。 如 果 a 可 以 推导 出 空 终结 符 s， 则 SELECT (A->a) 


= (FIRST (a) -{e}) UFOLLOW (CA) 。 


而 判定 一 个 文法 是 否 是 LL (1) 文法 的 充 要 条 件 是 : 对 任意 非 终 结 
符 A 的 任意 两 个 不 同 的 产生 式 A->a 和 A->b， 满 足 SELECT (A->a) 
NSELECT (A->b) = 。 


因此 ， 前 面 讨论 了 产生 式 递归 下 降 子 程序 的 方法 正 是 SELECT 集合 
特点 的 体现 。 即 产生 式 右 侧 不 能 推导 出 空 非 终结 符 时 使 用 产生 式 的 
FIRST 集 合 决定 产生 式 的 选择 。 和 否则， 还 要 考虑 产生 式 的 FOLLOW 集 
合 。 只 要 满足 LL 〈1) 文法 ， 则 保证 同一 个 终结 符 的 产生 式 的 SELECT 
集合 互 不 相交 ， 从 而 保证 了 产生 式 选择 的 唯一 性 。 





非 终 结 符 <program> 表 示 整 个 源 程序 ， 其 FOLLOW 集合 只 包含 一 个 
非 终结 符 一 一 文件 结束 符 词 法 记号 END。 因 此 ，program 子 程序 实现 如 
二 





1 void Parser::program 


() 

2.. 4 

3 if(look->tag==END 
return ， 


} 
elsef 


NOR— 


segment 


program 





当 遇 到 终结 符 END 时 ，program 子 程序 退出 ， 停 止 右 递归 过 程 。 
里 可 以 看 出 LL (1) 文法 不 允许 出 现 左 递归 的 原因 ， 假 如 交换 第 7 行 与 
行 的 代码 顺序 ， 如 果 不 考虑 判断 条 件 ，program 函 数 将 是 无 限 递归 的 


2 
Hi 


由 于 program 子 程序 是 语法 分 析 过 程 中 最 先 执行 的 子 程序 ， 因 此 在 
执行 program 子 程序 之 前 ， 需 要 调用 move 函 数 将 第 一 个 词法 记号 读 入 变 


量 ]ook。 





1 void Parser::analyze 


( 

2 

3 move( ); 
4 program( ); 
5 





函数 analyze 是 语法 分 析 器 的 主 程序 ， 调 用 它 可 以 完成 语法 分 析 过 


包含 空 终结 符 的 产生 式 还 有 一 种 特殊 情况 ， 例 如 非 终 结 符 <init> 的 
和 





<init>->ASSIGN <expr> | * 





该 产生 式 除 了 产生 空 终结 符 之 外 ， 其 他 产生 式 都 是 以 终结 符 开始 
的 ， 我 们 优先 对 该 类 产生 式 进行 判断 选择 。 





1 void Parser::init 


If(match(ASSIGN ) ){ 
expr(); 


OON 


当 遇 到 终结 符 ASSIGN 后 ， 则 调用 expr 子 程序 继续 分 析 ， 否 则 结束 
init 子 程序 。 这 里 不 需要 对 空 终结 符 产 生 式 进行 处 理 ， 即 不 通过 判断 
<init> 的 FOLLOW 集 来 选择 空 终结 符 对 应 的 产生 式 。 因 为 后 继 的 其 他 子 
程序 读 入 这 个 词法 记号 时 ， 会 立即 发 现 这 个 错误 。 


按照 前 面 描述 的 递归 下 降 子 程序 的 构造 方法 ， 可 以 将 3.2.1 节 定义 的 
全 部 文法 转化 为 语法 分 析 程 序 ， 这 里 不 再 重复 列举 其 他 子 程序 的 实现 代 
码 。 我 们 发 现 ， 递 归 下 降 子 程序 实现 的 语法 分 析 器 并 未 像 图 3-13 描 述 的 
那样 输出 语法 模块 的 信息 。 编 译 原理 的 教材 中 一 般 将 语法 分 析 器 的 输出 
描述 为 抽象 语法 树 ， 抽 象 语法 树 的 每 个 市 点 也 称 为 语法 模块 ， 对 应 递归 
下 降 子 程序 的 每 个 子 程序 。 我 们 可 以 为 每 个 子 程序 添加 抽象 语法 树 生成 
代码 ， 将 抽象 语法 树 保 存 到 内 存 数据 结构 或 者 临时 文件 内 。 但 是 还 有 一 
种 更 简单 的 方式 是 直接 在 递归 下 降 子 程序 内 进行 语义 动作 ， 这 是 因为 弟 
归 下 降 子 程序 的 递归 调用 过 程 已 经 蕴含 了 抽象 语法 树 的 结构 。 正 如 图 3- 











16 描 述 的 那样 ， 在 子 程序 内 执行 符号 表 管 理 、 语 义 分 析 和 代码 生成 的 工 
作 。 这 样 的 过 程 称 为 语法 制导 ， 即 根据 语法 分 析 识 别 的 流程 来 确定 语法 
模块 ， 并 进行 相关 的 语义 动作 。 


3.2.3 ”错误 人 处理 


对 于 合法 的 源 程序 输入 ， 执 行 上 述 构造 完成 的 语法 分 析 程 序 后 ， 
analyze 函 数 会 正常 结束 。 但 是 ， 一 个 健壮 的 语法 分 析 器 在 语法 分 析出 钳 
时 ， 要 能 恢复 到 正常 语法 分 析 流程。 


例如 ， 源 程序 为 “int a; ”， 通 过 词法 分 析 产 生 的 词法 记号 序列 为 
(KW_INT，ID，SEMICON，END) ， 语 法 分 析 可 以 正常 分 析 这 段 程 
序 。 假 如 将 源 程序 修改 为 “a; ”， 词 法 分 析 器 产生 的 词法 记号 序列 为 
GD，SEMICON，END) 。 而 根据 正常 的 语法 分 析 流 程 ， 首 先 读 入 
ID， 并 与 类 型 <type> 匹 配 ， 匹 配 失败 报告 类 型 匹配 错误 。 然 后 读 入 
SEMICON， 并 与 ID 匹配 ， 匹 配 失败 报告 标识 符 匹 配 错 误 。 最 后 读 入 
END， 并 与 SEMICON 匹 配 ， 匹 配 失败 报 告 分 号 丢失 错误 。 我 们 发 现 ， 
原本 只 是 一 个 类 型 丢失 的 语法 错误 ， 按 照 上 述 语法 分 析 过 程 ， 会 导致 后 
继 终 结 符 的 匹配 有 发生“ 连锁 反应 ”， 从 而 产生 更 多 的 语法 错误 。 


如 果 语 法 分 析 堪 在 识别 出 茶 个 非 终 结 符 丢 失 错误 时 ， 及 时 修正 词法 
记号 读 取 的 “位 置 ?， 将 语法 分 析 过 程 恢 复 到 正常 的 流程 上 来 ， 便 可 以 有 
效 避 免 语法 错误 的 “连锁 反应 ?”。 为 此 ， 我 们 设计 了 一 个 简单 的 语法 错误 
恢复 算法 。 





图 3-17 错误 恢复 算法 流程 


图 3-16 中 ， 在 处 理 产 生 式 A Bj B, ..B, 时 ， 如 果 在 终结 符 B; 处 与 读 
入 的 词法 记号 X 匹 配 失败 ， 则 进行 如 图 3-17 的 错误 恢复 处 理 。 通 过 判断 
读 入 的 词法 记号 X 是 否 属于 终结 符 B; 后 继 产 生 式 Bi,; ..B, 的 FIRST 集 ， 
来 决定 当前 竺 匹配 的 非 终结 符 是 符号 丢失 错误 ， 还 是 符号 匹配 错误 。 其 


中 FIRST (Bi,; ..B，) 的 定义 为 : 








1) 如 果 Biyi 不 能 推导 出 空 终结 符 e， 则 FIRST (Biy1 .Ba ) 
=FIRST (Bi,; ) 。 


2) 如 果 Bi,] 能 推导 出 空 终结 符 g， 则 FIRST (Bi ..B，) 


= (FIRST (Bi ) -{e}) UFIRST (Bi，.B,，) 。 


3) 对 于 FIRST (B, ) ， 如 果 B， 能 推导 出 空 终结 符 e， 则 FIRST 〈Bn， 


) = (FIRST (B, ) -{e}) UFOLLOW (A). 


根据 这 样 的 形式 化 定义 ，FIRST (Bi,; ..B，) 集合 内 保存 了 终结 符 
B; 后 可 能 出 现 的 所 有 终结 符 。 图 3-17 描 述 的 错误 恢复 算法 的 基本 思想 
， 若 终结 符 匹 配 失败 ， 则 检查 当前 读 入 的 词法 记号 是 否 是 竺 匹配 非 终 

















失 ， 人 否则 认为 待 匹 配 的 非 终 结 符 匹 配 出 错 ， 继 续 读 入 下 一 个 词法 记号 。 
其 代码 描述 如 下 : 





1 void Parser: :recovery 


(bool cond,SynError lost,SynError wrong ) 





2 

3 if(cond) / /在 给 定 的 
Fol]ow 集 合 内 

4 SYNERROR( lost, look); 

5 elsef 

6 SYNERROR(wrong, look); 

7 move( ); 

8 

9 } 





函数 recovery 摘 述 了 错误 恢复 的 算法 实现 ， 参 数 cond 摘 述 当前 读 入 
的 词法 记号 look 是 否 属于 FIRST (Bi,; ..B，) 集合 ， 而 参数 lost 和 wrong 
描述 了 未 匹配 终结 符 Bi 的 丢失 和 匹配 错误 信息 的 类 型 。SYNERROR 安 
用 于 输出 语法 错误 信息 ， 后 面 会 详细 介绍 它 的 实现 。 








参数 cond 保 存 逻 辑 真 假 值 ， 表 示 当 前 词法 记号 look 是 人 否 属 于 
FIRST (Bi ..B。) 集合 ， 在 我 们 实现 的 语法 分 析 器 中 并 未 计算 
FIRST (Bi,; .B。) ， 而 是 直接 通过 硬 编码 完成 集合 元 素 的 比较 。 假 如 
集合 FIRST (Bi,; ..B, ) ={KW_INT，KW_CHAR，KW_VOID} (这 里 
Bi 是 非 终结 符 <type>) ， 那 么 计算 cond 值 使 用 的 代码 为 : 





lJook->tag==KW_INT||look->tag==KW_CHAR| |look->tag==KW_VOID 





为 了 将 代码 简化 ， 我 们 定义 如 下 两 个 简单 的 宏 代 蔡 这 个 逻辑 表达 
Te 





#define _(T) ||look->tag==T 
#define F(C) look->tag==C 





使 用 这 两 个 宏 计 算 cond 值 的 逻辑 表达 式 为 : 





F(KW_INT)_ (KW_CHAR)_(KW_VvoID) 








使 用 逻辑 表达 式 确定 look 是 否 属于 FIRST (Bi41 ..Bn ) 集合 比 构造 
该 集合 后 再 进行 判断 更 加 高 效 。 


需要 说 明 的 是 ， 我 们 实现 的 错误 恢复 算法 虽然 可 以 在 一 定 程度 上 避 
免 因 终结 符 丢 失 时 产生 的 语法 错误 而 引起 的 连锁 反应 ， 但 是 仍 有 不 足 之 
处 。 ee 
) 集合 内 ， 那 么 再 次 读 入 的 词法 记号 将 仍 会 按照 原来 的 语法 分 析 流 程 引 





续 分 析 ， 而 不 能 保证 该 词法 记号 的 分 析 过 程 进入 正确 的 语法 分 析 器 程 

序 ， 从 而 也 可 能 报告 更 多 的 语法 错误 。 实 际 针对 语法 分 析 器 的 使 用 测试 
中 ， 这 样 的 情况 出 现 的 次 数 并 不 多 ， 这 是 因为 大 部 分 语法 分 析出 错 的 代 
码 很 多 情况 来 源 于 编程 者 的 书写 错误 和 琉 漏 。 即 使 语法 分 析 器 报告 了 大 
量 的 不 该 出 现 的 语法 错误 信息 ， 我 们 仍 能 确定 第 一 条 语法 错误 的 准确 

性 ， 通 过 对 错误 的 修改 ， 可 以 有 效 地 减少 类 似 错误 情况 的 出 现 。 当 然 ， 

我 们 也 可 以 对 以 上 的 错误 恢复 算法 做 一 定 的 修改 。 在 出 现 终结 符 匹配 失 
败 错误 时 ， 不 是 简单 地 读 入 下 一 个 词法 记号 ， 而 是 党 试 读 入 更 多 的 词法 
记号 ， 直 到 读 入 的 词法 记号 在 FIRST (Bi,; ..B，) 集合 为 止 。 这 样 做 看 
起 来 每 次 的 错误 恢复 都 能 保证 语法 分 析 回 到 正常 的 流程 ， 但 是 一 旦 出 现 
将 所 有 的 词法 记号 读 取 完毕 仍 不 能 发 现 FIRST〈Bi,1 .Bu ) 集合 内 的 元 
素 时 ， 就 会 产生 更 多 的 语法 错误 。 可 见 ， 错 误 恢 复 算 法 并 没有 实际 的 标 
准 ， 语 法 分 析 器 的 实现 者 需要 根据 具体 需要 做 不 同 的 选择 。 我 们 这 里 只 
是 描述 了 错误 恢复 算法 的 基本 思想 ， 读 者 可 以 尝试 编写 自己 的 错误 恢复 
算法 ， 并 对 错误 恢复 算法 的 健壮 性 进行 测试 。 

















在 报告 词法 错误 的 信息 时 ， 需 要 指定 出 现 词法 错误 的 位 置 ， 包 括 文 
件 名 、 行 列 位 置 和 错误 类 型 信息 。 而 在 报告 语法 错误 时 ， 需 要 指定 语法 
错误 的 位 置 ， 包 括 文件 名 、 行 位 置 、 错 误 类 型 以 及 出 错时 读 入 的 词法 记 
号 一 一 它 标识 了 语法 错误 的 具体 的 行内 位 置 。 在 我 们 实现 的 语法 分 析 器 
中 处 理 的 语法 错误 如 表 3-6 所 示 。 


表 3-6 语法 错误 表 



































和 呈 类 于 语法 错误 类 型 
壬 号 、 误 
符号 丢失 错误 符号 匹配 错误 
类 型 TYPE LOST TYPE WRONG 
标识 符 ID LOST ID WRONG 
数字 NUM LOST NUM WRONG 
常量 LITERAL LOST LITERAL WRONG 
COMMA LOST COMMA WRONG 
2 SEMICON LOST SEMICON WRONG 
= ASSIGN LOST ASSIGN WRONG 
: COLON LOST COLON WRONG 
while WHILE LOST WHILE WRONG 
( LPAREN LOST LPAREN WRONG 
) RPAREN LOST RPAREN WRONG 
[ LBRACK LOST LBRACK WRONG 
] RBRACK LOST RBRACK WRONG 
{ LBRACE LOST LBRACE WRONG 
} RBRACE LOST RBRACE WRONG 


在 扫 揪 右 内 ， 我 们 计算 了 字符 所 在 行 的 位 置 ， 同 时 保存 了 处 理 的 源 
文件 的 名 称 ， 语 法 分 析 器 内 look 保 存 了 妆 


提供 的 语法 错误 信息 ， 实 现 语 法 错误 





1 /* 
2 语法 错误 类 型 


3 */ 
4 enum SynError 


es 


TYPE_LOST, 


TYPE_WRONG, 
ID_LOST, 


be 


8 ID_WRONG, 











入 的 词法 记号 。 根 据 表 3-6 
忌 输 出 的 相关 代码 如 下 : 


// 类 型 


/ /标志 符 


9 NUM_LOST, 

10 NUM_WRONG, 

11 LITERAL_LOST, 
12 LITERAL_WRONG, 
13 COMMA_LOST, 
14 COMMA_WRONG, 
15 SEMICON_LOST, 
16 SEMICON_WRONG ， 
17 ASSIGN_LOST, 
18 ASSIGN_WRONG, 
19 COLON_LOST, 
20 COLON_WRONG, 
21 WHILE_LOST, 
22 WHILE WRONG, 
23 LPAREN_LOST, 
24 LPAREN_WRONG, 
25 RPAREN_LOST, 
26 RPAREN_ WRONG, 
27 LBRACK_LOST, 
28 LBRACK_WRONG, 
29 RBRACK_LOST, 
30 RBRACK_WRONG, 
31 LBRACE_LOST, 
32 LBRACE_WRONG, 
33 RBRACE_LOST, 
34 RBRACE_WRONG 
35 }; 

36 /* 


37 打印 语法 错误 


38 */ 
39 void Error::synError 


(Int code,Token*t){ 
40 static const char *synErrorTable[]= 


41 { 

42 "类 型 
1 

了 

43 "标识 符 


44 "数组 长 度 


/ /数组 长 度 


/ /分 号 


//while 
//( 
//) 
//[ 
//] 
//{ 
//} 


46 "逗号 
mT 
要 
47 "分 号 
I 
了 
48 ol 
49 中转 吕 . 
中 
畦 
50 "while", 
51 TI mh 
52 mh , mh ¢ 
53 mm fr 
54 “中 这 
55 of 
56 np 
57 }; 
58 errorNum++， 
59 if(code%2==0) //lost 
60 printf("%s< 第 
%d 行 


> 语法 错误 


在 
%S 之 前 丢失 

%s .\Nn" 

61 ,Scanner->getFile(),scanner->getLine() 
62 Pe 


tostring().c_str(),synErrorTable[code/2]); 
63 else //wrong 
64 printf("%s< 第 


%d 行 


> 语法 错误 


在 


%S 处 没有 正确 匹配 





%s .\Nn" 
65 ,Scanner->getFile(),scanner->getLine() 


66 ,t->toSstring().c_str(),synErrorTable[code/2]); 
67 
68 #define SYNERROR 


(code,t) Error::synError(code,t) 





第 1~35 行 使 用 枚 举 类 型 synError 记 录 了 所 有 语法 错误 的 类 型 。 


第 36~67 行 定义 输出 语法 错误 信息 的 函数 synError， 其 中 数组 
synErrorTable 保 存 了 与 语法 错误 类 型 对 应 的 符号 类 型 信息 。 第 58 行 使 用 
变量 errorNum 记 录 编 译 过 程 中 产生 的 错误 数 。 第 59~66 行 调用 了 扫描 器 
的 方法 以 获取 词法 错误 所 在 的 文件 名 和 行 写 ， 其 中 参数 t 记 录 了 语法 分 
析 器 当前 读 入 的 词法 记号 look。 











第 68 行 使 用 宏 SYNERROR 封 装 了 synError 函 数 的 调用 。 








至 此 ， 我 们 介绍 了 语法 分 析 器 的 所 有 实现 细节 。 接 下 来 是 在 递归 下 
降 子 程序 内 插入 基于 语法 制导 的 语义 动作 代码 ， 包 括 符 号 表 管 理 、 语 义 
分 析 和 代码 生成 。 


33 利于 表 管 理 





符号 表 内 记录 了 编译 过 程 中 产生 的 关键 信息 ， 我 们 通过 在 语法 分 析 
程序 插入 符号 表 管 理 代码 ， 进 行 变 量 信息 管理 、 函 数 信息 管理 、 作 用 域 
管理 等 工作 。 





如 图 3-18 所 示 ， 符 号 表 管 理 、 语 义 分 析 和 代码 生成 没有 绝对 的 先后 
关系 。 语 法 分 析 中 产生 的 语义 动作 除了 更 新 符 写 表 信息 ， 也 需要 进行 代 
码 生成 的 工作 。 在 符号 表 信 息 更 新 和 代码 生成 过 程 中 ， 语 义 分 析 需 要 检 
得 代码 语义 信息 的 正确 性 。 而 语义 分 析 和 代码 生成 则 需要 从 符号 表 内 读 
取 所 需 的 信息 ， 进 行 相关 的 语义 检查 和 代码 的 翻译 。 代 码 生 成 阶段 ， 产 
生 的 临时 变量 也 需要 保存 到 符号 表 。 












语法 模块 


语义 分 析 






代码 生成 


- 
Eb 
” 


图 3-18 语义 动作 相关 模块 


3.3.1 符号 表 数 据 结 构 





根据 已 设计 的 目 定 义 语言 特性 ， 变 量 、 函 数 和 字符 串 常 量 的 信息 是 
关键 的 符号 信息 。 为 外 ， 由 于 允许 在 不 同 的 作用 域 定 义 、 使 用 相同 的 符 
写 名 ， 因 此 需要 在 变量 符 写 内 保存 作用 域 的 信息 以 区 分 同名 的 变量 。 符 
号 表 内 最 终 需 要 记录 的 信息 包含 变量 、 函 数 、 字 符 串 常量 和 作用 域 信息 
等 。 使 用 按 名 访问 的 方式 有 利于 符号 信息 的 查询 ， 因 此 散 列 表 是 实现 符 
号 表 数 据 结构 的 较 好 选择 。 


























如 图 3-19 所 示 ， 符 号 表 内 保存 了 三 个 重要 的 数据 结构 : 变量 表 、 函 
数 表 和 串 表 。 变 量 表 使 用 散 列 表 实 现 ， 保 存 了 变量 名 与 同名 变量 列表 的 
映射 ， 变 量 列表 内 保存 了 变量 对 象 。 图 中 展示 了 三 个 名 字 为 var1 的 变量 
对 象 ， 它 们 的 作用 域 路 径 分 别 是 %Y/0”"、“/0/1”、“/0/2/3”， 类 型 分 别 
为 “int”*"、“char”、“int*”。 函数 表 也 使 用 散 列 表 实现 ， 保 存 了 函数 名 与 函 
数 对 象 的 映射 。 图 中 展示 了 名 为 fun1 的 函数 对 象 ， 它 的 返回 类 型 
是 “int”， 参 数列 表 保 存在 args 字 段 内 。 串 表 使 用 链表 实现 ， 保 存 了 程序 
中 定义 的 字符 串 常 量 。 图 中 展示 了 两 个 字符 串 常量 “Hello” 和 “%d”。 

















同名 变量 列表 





图 3-19 ”符号 表 结 构 





符 写 表 相关 数据 结构 的 部 分 实现 代码 如 下 : 





1 /* 

2 符号 表 

3 */ 

4 class SymTab 

{ 

5 struct string_hasht{ //hast 
6 size_t operator()(const string& str) const{ 

7 return __ stl hash string(str.c_ str()); 

8 } 

9 }; 

10 hash_map<string,vector<Var*>*, string_hash> varTab; / /变量 表 


11 
12 
13 
14 


15 


16 } 
17 / 
18 变量 


19 */ 


hash_map<string,Var*,string_hash> strTab; 


hash_map<string,Fun*,string_hash> funTab; 


Fun*curFun; 


int scopeId; 


vector<int>scopePath; 


20 class Var 


22 


23 


eXtern 声 明 


24 


25 


26 


27 


28 


bool literal,; 


vector<int>scopePath; 


bool externed ; 


Tag type; 


string name; 


bool IsPtr， 


bool isArray; 


int arraySize,; 


/7 字符 昌 和 





寺 
地 
洲 


/ /函数 表 


// 当 前 分 


// 作 用 域 


/ /作用 域 路 径 











// 作 用 域 路 径 








/ / 变量 名 


/ /数组 长 


29 bool isLeft,; / /是否 司 





30 Var* initData; // 初 值 数 
31 bool inited; / /是 否 祝 
32 uniont //int. 
Char 初 值 

33 int intVal; 

34 char charVvVal 

35 }; 

36 string StrVal， / /字符 哩 
37 string ptrVal， /V 字符 指 
38 Var*ptr; / / 变量 和 
39 int size; / /变量 萨 
40 int offset; / /变量 上 
41 }; 

42 /* 

43 函数 

44 */ 


45 class Fun 


46 { 
47 bool externed; / /是否 


eXtern 声 明 





48 Tag type; // 返 


互 
be 











49 String name / /函数 名 





























50 Vector<Var*>paravar ; / / 形 参 变量 列表 
51 int maxDepth ; // 栈 的 最 
52 int curEsp; / / 当前 栈 
53 vector<int>scopeEsp; / V 作用 域 栈 指针 位 置 
54 Vector<InterInstx*> interCode; / /目标 代码 

55 InterInst* returnpoint; / /返回 点 
56 }; 





第 1~16 行 描述 了 符号 表 SymTab 数 据 结构 内 的 关键 字段 。 


第 5~9 行 定义 了 字符 串 的 hash 函 数 对 象 string_hash， 用 于 将 字符 串 转 
化 为 一 个 无 符号 整数 值 。 


第 10~12 行 定义 了 变量 表 varTab、 字 符 串 常量 表 strTab 和 函数 表 
funTab 。 


第 13 行 curFun 记 录 当 前 分 析 的 函数 。 


第 14~15 行 中 ，scopeId 记 录 作 用 域 的 唯一 编号 ，scopePath 记 录 从 全 
局 作用 域 到 当前 作用 域 的 路 径 。 变 量 表 由 散 列 表 实 现 ， 元 素 类 型 为 


vector， 记 录 了 同名 变量 对 应 的 Var 对 象 指 针 。 根 据 C 语 言 定义 ， 不 同 作 
用 域内 是 允许 出 现 同名 变量 的 ， 而 且 内 部 作用 域 将 履 盖 外 部 作用 域 的 同 
名 变量 。 因 此 ， 必 须 使 用 作用 域 路 径 区 分 不 同 作用 域 的 同名 变量 。 





第 17~41 行 描述 了 变量 数据 结构 的 关键 字段 。 








字段 literal 表 示 Var 对 象 是 否 是 和 常量， 递归 下 降 子 程序 literal 识 别 第 量 


时 创建 的 Var 对 象 的 literal 字 段 总 为 tue， 其 他 情况 该 字段 为 false。 





字段 scopePath 记 录 了 变量 声明 或 定义 时 所 在 的 作用 域 路 径 ， 同 名 变 
量 通 过 该 作用 域 字 段 区 分 自己 的 作用 范围 。 











第 23~25 行 定义 的 字段 extermmed、type 和 name 分 别 表示 变量 是 否 是 
extern 声 明 形式 、 类 型 和 变量 名 基本 信息 。 

















第 26~28 行 中 ， 字 段 isPtr 表 示 变 量 是 否 是 指针 类 型 。 字 段 isArray 表 
示 变 量 是 否 是 数组 类 型 ， 如 果 isArray 为 tue， 字 段 arraySize 表 示 数 组 的 
大 小 。 




















字段 isLeft 用 于 表示 变量 是 人 否 可 以 作为 左 值 ， 即 古 否 允许 被 其 他 表 
达 式 赋值 或 者 被 取 地 址 等 ， 用 于 表达 式 语 义 的 检查 。 


字段 initData 记 录 了 变量 定义 时 的 初始 化 表达 式 的 结果 变量 。 


第 32~35 行 的 匿名 联合 记录 了 int 和 char 类 型 变量 的 初 值 。 


字段 strVal 记 录 了 字符 串 常 量 的 内 容 。 
字段 ptrVal 记 录 了 字符 指针 的 初 值 ， 即 初始 化 字符 串 和 常量 的 名 称 。 


字段 ptr 记 录 了 指 癌 当 前 变量 的 指针 变量 。 例 如 指针 运算 *p 的 结果 变 
量 为 t， 则 变量 t 的 Var 对 象 的 ptr 字 段 指 癌变 量 p 的 Var 对 象 。 





字段 size 记 录 变 量 的 大 小 ， 单 位 为 字 市 








字段 offset 记 录 局 部 变量 或 参数 变量 相对 于 栈 帧 基 址 的 偏 移 量 ， 如 
果 变 量 是 全 局 变量 ， 该 字段 为 0。 




















第 42~56 行 描述 了 函数 数据 结构 的 关键 字段 。 





第 47~49 行 中 ， 字 段 externed、type 和 name 分 别 表示 函数 是 否 使 用 
extern 声 明 、 返 回 类 型 和 函数 名 。 


字段 paraVar 记 录 了 函数 形式 参数 变量 列表 。 
字段 maxDepthit 录 了 函数 栈 帧 的 最 大 值 ， 即 需要 开辟 的 栈 帧 大 小 。 


字段 curEsp 记 录 了 当前 栈 指针 的 位 置 ， 即 当前 栈 帧 的 大 小 ， 初 值 为 
栈 帧 基 址 的 位 置 。 


字段 scopeEsp 动 态 记 录 每 个 作用 域 的 大 小 。 进 入 作用 域 i 时 ， 设 定 
scopeEsp[i] 初 值 为 0。 离 开 作 用 域 时 ， 将 curEsp 减 去 scopeEsp[i] 恢 复 到 进 


入 作用 域 之 前 的 栈 帧 大 小 。 


字段 interCode 记 录 生 成 的 目标 代码 。 


字段 returnPoint 记 录 函 数 返 回 时 需要 跳 转 到 的 函数 退出 代码 位 置 。 


3.3.2 ”作用 域 管 理 





对 代码 作用 域 的 管理 是 为 了 区 分 不 同 作用 域 的 同名 变量 ， 以 及 确定 
局 部 变量 相对 于 栈 帧 基 址 的 侦 移 。 





在 C 语 言 中 ， 作 用 域 具有 以 下 特点 。 


1) 一 般 使 用 花 括 弧 对 “{}” 表 示 一 个 作用 域 。 


2) 作用 域 允许 说 僚 。 





3) 作用 域内 声明 的 变量 在 作用 域外 不 可 见 。 





4) 对 于 拨 套 作用 域 ， 外 部 作用 域 声明 的 变量 在 内 部 作用 域 可 见 。 





5) 内 部 作用 域 声 明 的 变量 可 以 覆盖 外 部 作用 域 声 明 的 同名 变量 。 


一 般 情 况 下 ， 很 少 使 用 花 括 弧 对 “{} ?直接 定义 代码 作用 域 ， 而 是 使 
用 常用 的 复合 语句 ， 例 如 while 循 坏 、if-else 条 件 语 句 等 定义 代码 作用 
域 。 





while(condition) 


statements 





比如 while 循 环 语句 ， 虽 然 condition 表 达 式 不 在 花 括 弧 对 内 部 ， 但 仍 


属于 while 循 环 的 作用 域 ， 即 与 statements 在 一 个 作用 域内 。 这 是 因为 ， 
对 while 循 环 语句 来 说 ， 其 内 部 只 有 一 个 作用 域 一 一 循环 体 ， 循 环 条 件 
部 分 可 以 直接 与 循环 体 合并 。 类 似 的 情况 还 有 让 语句 、else 语 句 、for 循 
环 语 句 等 。 不 过 有 一 个 语句 例外 ， 束 是 do-while 循 环 语句 。 








do 
statements 


while(condition); 





如 果 在 do-while 循 环 内 将 statements 和 condition 看 作 一 个 作用 域内 ， 
那么 对 于 condition 表 达 式 来 说 ，statements 声 明 的 变量 便 可 以 在 condition 
内 可 见 ， 这 违反 了 作用 域 的 基本 特性 。 因 此 ，condition 表 达 式 应 该 属于 
do-while 循 环 的 外 层 作 用 域 。 





符号 表 提 供 了 两 个 基本 操作 用 于 作用 域 的 管理 。 





1 /* 
2 进入 局 部 作用 域 


3 */ 
4 void SymTab::enter 


() 

5 攻 

6 scopeId++; 

7 scopePath.push_back(scopeId); 

8 if(curFun)curFun->enterScope() ; 
9 

10 

11 /* 


142 ”离开 局 部 作用 域 


13 */ 
14 void SymTab: :1leave 


16 scopePath .pop_back(); 
17 if(curFun)curFun->leaveScope(); 
18 } 


作用 域 绾 理 的 思想 很 简单 ， 由 于 作用 域 支 持 迄 人 套 结 构 ， 使 用 栈 描述 
作用 域 的 动态 变化 最 为 合适 。 代 码 中 scopePath 保 存 了 当前 作用 域 的 嵌 套 
结构 ， 其 内 部 元 素 是 每 个 作用 域 的 编号 ， 我 们 为 每 个 作用 域 分 配 一 个 唯 
一 的 编写 ， 存 放 在 符 写 表 的 scopeld 字 段 。 


使 用 enter 函 数 进入 一 个 新 的 作用 域 ， 并 改变 scopeId， 表 示 当 前 作用 
域 的 编写 。scopeld 初 值 为 0%， 表 示 全 局 作用 域 。 然 后 将 作用 域 编写 放 入 
栈 中 ， 这 样 scopePath 反 映 的 作用 域 谤 套 结构 正好 是 全 局 作用 域 到 当前 作 
用 域 的 路 径 。 在 当前 作用 域 声明 的 变量 都 会 保存 这 个 作用 域 路 径 ， 用 于 
区 分 不 同 作 用 域 下 的 同名 变量 。 








使 用 leave 函 数 离 开 作 用 域 ， 只 需要 将 scopePath 栈 顶 元 素 出 栈 即 可 ， 
这 样 scopePath 便 恢复 到 进入 这 个 作用 域 前 的 状态 ， 即 上 级 作用 域 的 路 
径 。 


在 语法 分 析 的 递归 下 降 子 程序 中 ， 通 过 插入 作用 域 管理 的 代码 完成 
相应 的 语义 动作 。 例 如 while 循 环 的 递归 下 降 子 程序 插入 作用 域 管理 代 
码 后 形式 如 下 : 


1 Vvoid Parser: :whilestat 


Symtab .enter 


( 
4 match(KW_WHILE) ， 

5 if(!match(LPAREN) ) 

6 recovery(EXPR_FIRST||F(CRPAREN ) 

7 ; LPAREN_LOST, LPAREN_WRONG ) ， 

8 altexpr(); 

9 if(!match (RPAREN)) 

10 recovery(F(LBRACE), RPAREN_LOST, RPAREN_ WRONG); 
11 block(); 

12 symtab.leave 


(); 
13 } 





这 样 ， 在 代码 第 3~12 行 之 间 产 生 的 变量 都 是 属于 while 循 环 作用 域 
的 。 类 似 的 ，do-while 循 环 插入 作用 域 管理 代码 后 形式 如 下 : 





1 void Parser: :dowhilestat() 

2 1{ 

3 Symtab .enter 

() 

4 match(KW_DO) ， 

5 block( ) ， 

6 if(!match(Kw_WHILE) ) 

7 recovery(F(LPAREN ) ,WHILE_LOST,WHILE_WRONG ) ; 

8 if(!match(LPAREN) ) 

9 recovery(EXPR_FIRST||F(RPAREN ) 

10 ; LPAREN_LOST, LPAREN_WRONG ) ， 

11 symtab.leave 

() 

12 altexpr(); 

13 if(!match(RPAREN)) 

14 recovery(F(SEMICON),RPAREN_LOST,RPAREN_ WRONG); 
15 If(!match(SEMICON ) ) 

16 recovery(TYPE_FIRST| |STATEMENT_FIRST | |F(RBRACE) 
17 /SEMICON_LOST, SEMICON_WRONG ) ， 

18 } 





可 以 看 出 ， 作 用 域 管 理 代 码 仅 仅 作 用 于 代码 第 3~11 行 之 间 ， 第 12 行 
后 的 表达 式 代 码 并 不 在 do-while 的 内 部 作用 域内 ， 而 是 处 于 上 级 作用 域 


函数 定义 和 声明 的 作用 域 管理 有 一 点 特别 ， 它 与 while 循 环 的 作用 
域 管 理 类 似 。 我 们 为 非 终结 符 <idtail> 定 义 的 产生 陈 为 : 





<idtail>-><varrdef><deflist> | LPAREN <para> RPAREN <funtail> 





对 应 的 递归 下 降 子 程序 插入 作用 域 管理 代码 后 形式 为 : 





1 void Parser::idtail() 

2 I 

3 if(match(LPAREN ) ){ 

4 Symtab .enter 

(); 

5 para( ); 

6 if(!match(RPAREN)) 

7 recovery(F(LBRACK)_(SEMICON) 
8 ; RPAREN_LOST, RPAREN_WRONG ) ， 
9 funtail( ); 

10 symtab.1leave 

(); 

11 } 

12 elsef 

13 varrdef(); 

14 deflist(); 

15 

16 } 





函数 的 参数 变量 属于 函数 内 部 作用 域 ， 为 了 将 函数 的 参数 变量 包含 
到 函数 作用 域内 部 ， 我 们 将 作用 域 管 理 代 码 插入 para 和 funtail 前 后 。 这 
样 做 的 结果 是 ， 无 论 是 函数 声明 还 是 函数 定义 都 会 产生 新 的 作用 域 ， 不 
过 这 并 不 影响 作用 域 的 管理 。 








如 图 3-20 所 示 的 代码 ， 为 了 简便 起 见 ， 这 里 只 保留 了 变量 的 声明 信 


。 按 照 上 述 变 量 作用 域 的 管理 方式 ， 示 例 代 码 会 产生 4 个 代码 作用 
域 : 全 局 作用 域 〈 编 号 0) 、main 函 数 作用 域 〈 编 号 1) 、fun 函 数 作用 
域 (编号 2) 和 让 语 句 作 用 域 〈 编 号 3) 。 符 号 表 初 始 化 时 ， 将 0 号 作用 域 
入 栈 ， 进 入 main 函 数 时 将 1 写作 用 域 入 栈 ， 得 到 main 函 数 作用 域 路 
径 “/0/1”。 当 离开 main 函 数 时 ，1 号 作用 域 出 栈 ， 作 用 域 路 径 恢 复 
为 “/0”"。 接 着 进入 fun 函 数 作用 域 时 ， 作 用 域 路 径 变 为 %/0/2”"， 再 进入 f 语 
名 作用 域 时 ， 作 用 域 路 径 变 为 "0/2/3”。 这 样 在 全 局 作用 域 、main 函 数 
作用 域 和 fun 函 数 的 f 语 句 作 用 域内 定义 的 同名 变量 var1 拥 有 不 同 的 作用 
域 路 径 %/0”、“/0/1” 和 “10/2/3”， 完 成 了 不 同 作用 域 同名 变量 的 区 分 。 


WE 


char varl: 


if(x){ /0/2/3 |varl:/0/2/3 
Oo O12 Jvort/0/2/3 


图 3-20 ”变量 作用 域 路 径 











前 面 讲 到 ， 作 用 域 管理 除了 区 分 同名 变量 ， 还 具有 计算 局 部 变量 相 


对 于 栈 帧 基 址 的 偏 移 的 作用 。 而 在 符号 表 的 enter 和 leave 了 水 数 内 分 别 调用 
了 Fun 对 象 的 enterScope 和 1leaveScope 的 函数 正 是 完成 了 局 部 变量 栈 帧 内 
偏 移 的 计算 。 





2 进入 一 个 新 的 作用 域 


3 */ 
4 void Fun::enterScope 


( 

5 I 

6 scopeEsp.push_back(0); 
7 } 

8 

9 /* 

40 高 开 当 前 作用 域 

11 */ 


13 { 

14 maxDepth=(curEsp>maxDepth)?curEsp:maxDepth,; 
15 curEsp-=scopeEsp.back( ); 

16 scopeEsp.pop_back(); 

17 } 








与 使 用 scopePath 记 录 作 用 域 路 径 类 似 ，scopeEsp 动 态 保存 了 每 个 作 
用 域 的 大 小 ， 且 按照 作用 域 的 仍 套 层次 进行 管理 。 


每 次 进入 新 的 作用 域 时 ， 作 用 域 的 大 小 为 0，scopeEsp 将 0 入 栈 。 此 
后 凡是 在 作用 域内 定义 了 新 的 变量 ， 则 将 该 变量 大 小 累加 到 当前 作用 域 
的 大 小 ， 同 时 curEsp 也 要 累加 变量 的 大 小 。 这 样 scopeEsp 内 总 是 保存 着 
当前 所 有 作用 域 的 实际 大 小 ， 而 curEsp 一 直 反 映 栈 帧 的 深度 。 


每 次 离开 作用 域 时 ， 首 先 计 算 栈 帧 的 最 大 深度 ， 然 后 将 curEsp 减 去 
当前 作用 域 的 大 小 《 栈 顶 元 素 ) ， 恢 复 到 进入 作用 域 前 栈 帧 深度 ， 最 后 
将 当前 作用 域 的 大 小 从 栈 内 弹出 。 





如 图 3-21 所 示 ， 继 续 前 面 的 代码 示例 。 变 量 的 栈 帧 内 偶 移 仅 局 限于 
函数 内 部 ， 因 此 全 局 变量 不 需要 考虑 这 个 问题 。 在 main 函 数 内 ， 作 用 域 
大 小 为 4， 栈 帧 最 大 深度 为 4。 进 入 fun 函 数 作用 域 时 ，scopeEsp 内 压 入 
0， 然 后 进入 语句 作用 域 ， 继 续 压 入 0，scopeEsp 内 保存 的 作用 域 大 小 
为 “0-0”。 当 定义 变量 var1 后 ， 放 语句 作用 域 大 小 增加 ，scopeEsp 变 为 “0- 
4”，cuUrEsp 增 为 4。 当 离开 让 语句 作用 域 后 ，curEsp 减 去 让 语句 作用 域 大 
小 4， 变 为 0， 同 时 scopeEsp 弹 出 栈 顶 元 素 ， 恢 复 为 "0”。 这 样 ，curEsp 总 
是 保存 局 部 变量 相对 于 栈 帧 基 址 的 偏 移 。 


: - Wl i 


in+ main(){ 


char varl: 














省 (xf 


In+x varl: 





图 3-21 ”变量 栈 帧 内 偏 移 


3.3.3 ”变量 管理 


变量 管理 涉及 变量 对 象 的 创建 、 将 变量 对 象 添加 到 变量 表 varTab 和 
从 变量 表 varTab 取 出 变量 对 象 。 不 过 这 些 操作 并 不 是 简单 地 对 数据 结构 
的 增 、 删 、 改 、 碍 ， 变 量 对 象 创建 时 需要 考虑 初始 化 的 不 同情 况 ， 增 加 
变量 对 象 时 需要 检查 变量 的 声明 合法 性 ， 获 取 变 量 对 象 时 需要 检查 变量 
引用 的 合法 性 等 。 





1. 创 建 变 量 对 象 


变量 对 象 的 来 源 有 三 种 ， 编 译 器 对 不 同 来 源 的 变量 处 理 不 同 。 


1) 在 源 程序 内 显 式 声明 变量 。 比 如 “extern int var; ”或 “int 


x=1; ”等 ， 这 类 变量 的 变量 名 是 程序 内 显 式 指定 的 标识 符 ID， 包 括 全 局 




















2) 源 程 友 内 定义 的 第 量 。 作 为 表达 式 运 算 的 基本 单位 ， 沼 量 被 看 
作 特 殊 的 变量 ， 这 类 变量 只 有 值 而 没有 显 式 的 名 字 ， 编 译 器 需要 为 之 指 


十 一 个 名 他， 





3) 表达 式 运算 的 临时 结果 变量 。 比 如 表达 式 “atb+e”， 按 照 加 法 运 
算 符 的 结合 性 ， 子 表达 式 “atb” 优 先 计算 ， 结 果 需 要 保存 到 临时 变量 ， 
临时 变量 也 没有 显 式 的 名 称 ， 需 要 编译 器 指定 唯一 的 名 字 。 


在 目 定义 语言 文法 定义 中 ， 使 用 非 终结 符 <defdata> 表 示 一 个 完整 的 
全 局 变量 或 局 部 变量 的 形式 ， 包 括 声明 、 定 义 和 初 始 化 。 使 用 非 终 结 符 


组 合 “<type><paradata>” 表 示 一 个 完整 的 形式 参数 变量 的 形式 。 





非 终结 符 <defdata> 的 递归 下 降 子 程序 的 实现 如 下 : 





1 Var* Parser: :defdata 


(bool ext,Tag t){ 

2 string name=""， 

3 if(F(ID) ){ 

4 name=(((Id*)look)->name); 
5 move( ); 

6 return varrdef 


(ext,t,false,name); 
7 


8 else if(match(MUL)){ 

9 if(F(ID)){ 

10 name=(((Id*)look)->name); 

11 move( ); 

12 } 

13 else 

14 recovery(F(SEMICON)_(COMMA)_(ASSIGN) 
15 , ID_LOST, ID_WRONG ) ， 

16 return init 


(ext, t,true,name); 


17 } 

18 elsef 

19 recovery(F(SEMICON) (COMMA)_(ASSIGN)_(LBRACK) 
20 ,ID_LOST, ID_WRONG ) ; 

21 return varrdef 


(ext, t,false, name); 

22 } 

23 } 

24 Var* Parser::varrdef 


(bool ext,Tag t,bool ptr,string name){ 


25 if(match(LBRACK)){ 

26 int len=0; 

27 If(F(NUM) ){ 

28 Jen=( (Num*)look)->val; 

29 move( ); 

30 

31 else 

32 recovery (F(RBRACK), NUM_LOST, NUM_WRONG); 
33 if(!match(RBRACK)) 


34 recovery(F(COMMA)_(SEMICON) 


35 , RBRACK_LOST, RBRACK_WRONG ) ; 


36 return new Var(Symtab .getScopePath() 

37 ,ext,t,name, len); 
// 新 的 数组 

38 

39 else 

40 return init 


(ext,t,ptr,name); 
41 } 
42 Var* Parser::init 


(bool ext,Tag t,bool ptr,string name){ 


43 Var* InitValL=NULL ， 

44 if(match(ASSIGN) ){ 

45 initVal=expr(); 

46 

47 return new Var(Symtab .getScopePath() 

48 ,ext,t,ptr,name,initVal); 
/ /新 的 变量 或 者 指针 

49 } 





回顾 前 面 对 <defdata> 文 法 的 定义 。 





<defdata>->ID <varrdef> | MUL ID <init> 
<varrdef>->LBRACK NUM RBRACK | <init> 
<init>->ASSIGN <expr> | * 








虽然 <defdata> 表 达 了 所 有 显 式 声明 变量 的 形式 ， 但 是 非 终 结 符 
<varrdef> 和 <init> 才 最 终 确定 了 变量 的 形式 。 前 者 用 于 确定 是 变量 还 是 
数组 ， 后 者 确定 变量 或 指针 的 初始 化 部 分 (我 们 定义 的 文法 不 允许 数组 

















的 初始 化 ) 。 


子 程序 defdata 的 参数 ext 用 来 表示 被 分 析 的 变量 是 否 由 extermm 声 明 ， 
参数 t 用 来 表示 变量 的 类 型 。 这 两 个 参数 由 调用 defdata 的 子 程序 传递 。 
而 defdata 则 将 这 些 变量 信息 传递 给 子 程 序 varrdef 和 init， 当 它们 获得 了 变 
量 的 所 有 信息 后 ， 就 创建 新 的 变量 对 象 Var， 并 将 收集 到 的 变量 信息 复 
制 到 Var 对 象 的 对 应 字段 内 。 


对 于 常量 ， 创 建 变量 对 象 的 方式 较为 简单 。 





1 Var::Var(Token*]1t)t 

2 clear(); 

3 literal=true; / /常量 标 记 

4 setLeft(false); / /不 能 作为 左 值 
5 switch(l1t->tag)t{ 

6 case NUM: 

7 setType(KW_INT); 

8 name="<int>"; / /类 型 作为 名 字 


9 intVal=( (Num*)1t)->val; / /记录 数字 数值 
10 break; 

11 case CH: 

12 setType(KW_CHAR); 

13 name="<char>"; / /类 型 作为 名 字 

14 intVal=0; / /高 位 置 


15 charval=( (Char*)1t)->ch; / /记录 字符 值 











16 break; 

17 case STR: 

18 setType(KW_CHAR); 

19 name=GenCode: :genLb( ); / /产生 一 个 新 的 名 字 

20 strVval=( (Str*)1t)->str; / /记录 字符 串 值 

21 setArray(strVal.size()+1); / /字符 串 作为 字符 数组 存储 
22 break 

23 } 

24 } 





在 词法 分 析 器 中 ， 常 量 的 所 有 信息 都 保存 在 Token 对 象 内 ， 因 此 可 
以 直接 从 Token 对 象 创建 对 应 的 变量 对 象 。 我 们 为 所 有 的 整数 或 字符 党 
量 设 定 了 同一 个 名 字 “<int>” 或 <<char>”， 这 样 在 符号 表 数 据 结构 的 变量 
表 内 ， 它 们 被 保存 在 键 值 为 <<int>” 或 “<<char>” 的 同名 链表 内 。 因 为 不 会 
存在 对 常量 的 按 名 访问 ， 这 样 做 无 可 厚 非 。 但 是 对 于 字符 串 常量 而 言 
就 需要 为 每 个 字符 串 分 配 一 个 唯一 的 名 字 ， 这 是 因为 后 面 代码 后 成 时 需 
要 根据 这 个 名 字 确 定 字符 串 的 起 始 地 址 。 代 码 生成 器 中 ， 使 用 genLb 函 
数 为 字符 串 生 成 一 个 唯一 的 名 字 。 











存放 表达 式 结果 的 临时 变量 与 表达 式 的 代码 生成 关系 很 大 ， 在 后 面 


会 详细 描述 。 


2. 添 加 变量 对 象 


经 过 defdata、paradata、1literal 等 子 程序 创建 了 变量 对 象 后 ， 符 号 表 
类 SymTab 提 供 的 addVar 函 数 将 新 创建 的 变量 对 象 添 加 到 变量 表 varTab 


中 。 





1 void SymTab : :addVar 


(Var* Var ){ 
if(varTab.find(var->getName())==varTab.end()){ 


2 
3 


NAO 


‘Om 


10 
11 
12 


13 
14 
15 


16 
17 
18 
19 
20 
21 


(Var ); 


22 


(Var ); 


了 
elsef 


J 
if(ir)f{ 


varTab[var->getName()]=new vector<Var*>,; / /创建 链表 

varTab[var->getName()]->push_back(var); / /添加 变量 

vector<Var*>&list=*varTab[var->getName()]; / /同名 变量 列表 

int 1i; 

for(i=0;i<list.size();i++) / /判断 变量 作用 域 
if(list[i]->getPath().back()==var->getPath().back()) 

break; 

if(i==list.size()||var->getName()[0]=='<') / /排除 常量 
lJist.push_back(var); 

elsef 
SEMERROR(VAR_RE_DEF, var ->getName( )); / /变量 重 定义 
delete var; 
return; 

} 


int flag=ir->genVarInit 


/ /变量 初始 化 语句 


if(curFun&&flag)curFun->locate 


/ /计算 局 部 变量 栈 帧 偏 移 


24 } 





第 2~5 行 处 理 变量 表 varTab 内 不 存在 添加 变量 var 名 称 的 同名 变量 列 
表 时 的 情况 。 首 先 创建 同 名 变量 列表 ， 添 加 到 变量 表 ， 人 然后 将 var 添 加 
到 同名 变量 列表 内 。 





第 6~19 行 处 理 同名 变量 列表 存在 时 的 情况 ， 此 时 需要 判断 变量 作用 
域 的 合法 性 ， 即 不 允许 同一 个 作用 域 下 出 现 同 名 的 变量 。 








第 7 行 获取 同名 变量 列表 list。 


第 9~11 行 志 历 list， 并 将 list 内 保存 的 变量 对 象 的 作用 域 路 径 与 var 的 
作用 域 路 径 进 行 匹 配 。 我 们 知道 ， 作 用 域 路 径 表 示 全 局 作用 域 到 当前 作 
用 域 的 路 径 ， 而 每 个 作用 域 分 配 了 唯一 的 编号 ， 因 此 通过 比较 作用 域 最 
后 一 个 元 素 便 可 以 确定 作用 域 路 径 是 否 相 同 。 循 环 退 出 时 ， 如 果 索 引 i 
不 等 于 同名 列表 的 长 度 ， 则 表示 出 现 了 相同 作用 域 的 同名 变量 ， 需 要 报 


告 语义 错误 。 











第 12~13 行 表示 不 存在 同 作用 域 的 同名 变量 ， 将 变量 添加 到 同名 变 
量 列表 。 前 面 提 到 整数 和 字符 常量 都 保存 在 “<int>” 和 “<char>” 同 名 变量 
列表 内 ， 且 作用 域 都 为 室 ， 因 此 会 导致 索引 ji 不 等 于 同名 列表 的 长 度 ， 
触发 语义 错误 。 为 了 避免 这 一 点 ， 我 们 添加 了 对 变量 名 的 判断 ， 即 判定 


名 字 的 第 一 个 字符 是 人 否 是 <， 因 为 标识 符 名 称 是 不 可 能 以 < 开始 的 。 











第 14~17 行 处 理 变量 重 定义 语义 错误 ， 语 义 错误 的 内 容 在 后 面 会 详 


细 描 述 。 


第 21 行 处 理 变 量 的 初始 化 语句 。 目 定义 语言 语法 规定 全 局 变量 的 初 
始 值 只 能 是 常量 ， 而 不 能 是 表达 式 。 而 局 部 变量 可 以 使 用 任意 合法 的 表 
达 式 进行 初始 化 ， 虽 然 它 们 在 文法 形式 上 完全 相同 《都 是 由 defdata 定 
义 ) 。 在 Var 数据 结构 内 ，initData 保 存 了 表达 式 的 结果 变量 ， 如 果 该 变 
量 是 常量 值 ， 则 直接 将 值 复 制 到 被 初始 化 的 变量 对 象 内 ， 人 否则 需要 生成 
赋值 语句 完成 初始 化 操作 ， 在 后 面 阐述 代码 生成 时 会 对 此 进行 详细 摘 











第 22 行 调用 locate 处 理 局 部 变量 的 栈 帧 偏 移 地 址 ， 代 人 码 如 下 : 





1 void Fun::locate 





(Var*var){ 

2 int size=var->getSize(); 

3 size+=(4-size%4)%4; // 按 昭 

4 字 节 的 大 小 整数 倍 分 配 局 部 变量 

4 ScopeESsp.back( )+=Size， / /累加 作用 域 大 小 
5 curEsp+=size; / /累加 栈 指针 位 置 
6 var->setoffset(-curEsp); // 局 部 变量 偏 移 为 负数 





冰 数 locate 首 和 完 获 取 变 量 的 大 小 ， 保 存 到 size 中 ， 并 将 size 按 照 4 字 市 
对 齐 。 然 后 修改 当前 作用 域 的 大 小 和 栈 指针 的 位 置 ， 最 后 将 栈 指针 位 置 
的 负 值 保存 到 局 部 变量 的 栈 帧 偏 移 字段 offset 内 。 之 所 以 保存 负 值 ， 
因为 栈 是 从 高 字 节 到 低 字 节 增 长 的 ， 局 部 变量 的 栈 帧 偏 移 从 0 开始 分 
配 。 关 于 函数 栈 帧 机 制 ， 在 代码 生成 革 市 会 详细 描述 。 








在 将 常量 添加 到 符号 表 时 ， 需 要 考虑 符号 表 中 字符 串 常量 表 的 行 





1 void SymTab : :addStr 





(Var* &v){ 

2 hash_ map<string,Var*,string_hash>::iterator strIt, 
3 strEnd=strTab.end( ) ; 

4 for(SstrIt=strTab,begin();SstrIt!=strEnd;++StrIt){ 
5 Var*str=strIt->second; 

6 if(v->getSstrVal()==str->getStrVal())t{ 

7 delete v; 

8 v=str; / /字符 串 常 量 
9 return; 

10 

11 } 

十 和 strTab[v->getName()]=v; 

13 } 


14 Var* Parser::literal 

















(){ 

15 Var *v =NULL; 

16 if(F(NUM)_(STR)_(CH)){ 

17 v = new Var(look); 

18 if(F(STR)) 

19 symtab.addstr(v); / /字符 串 党 
20 else 

21 symtab.addVar (v); / /其 他 常量 t 
22 move( ); 

23 } 

24 else 


25 recovery(RVAL_OPR, LITERAL_LOST, LITERAL WRONG); 


26 return v; 
27 } 











子 程序 literal 识 别 所 有 的 常量 ， 第 17 行 根据 常量 的 Token 对 象 创 建 变 
量 对 象 v。 将 字符 串 常量 添 加 到 字符 串 常量 表 strTab 中 ， 而 将 其 他 常量 正 
常 添加 到 变量 表 varTab 中 。 


函数 addStr 用 于 添加 一 个 字符 串 常 量 对 象 。 第 4~5 行 过 历 字 符 串 和 常量 
表 ， 将 取出 的 每 个 字符 串 常量 存 入 str 中 。 第 6 行 判 断 待 添加 的 字符 串 常 
量 v 是 否 已 经 存在 于 字符 串 常 量 表 strTab 中 ， 如 果 存 在 则 删除 v， 并 将 v 设 
置 为 已 经 存在 的 字符 串 常 量 str。 如 果 strTab 内 不 存在 字符 串 常 量 v， 则 将 
v 添 加 到 strTab 中 ， 键 值 为 v->name。 




















3. 获 取 变 量 对 象 


由 于 允许 不 同 作用 域 的 同名 变量 窗 盖 ， 因 此 获取 一 个 变量 对 象 需 要 
提供 两 个 基本 信息 : 变量 名 和 变量 访问 作用 域 。 变 量 表 使 用 散 列 表 和 同 
名 变量 列表 组 合 的 方式 组 织 ， 通 过 变量 名 确定 散 列 表 内 的 同名 变量 列 
表 ， 再 根据 变量 访问 作用 域 确 定 具体 的 变量 对 象 。 符 号 表 提 供 getVar 函 
数 用 于 获取 变量 对 象 。 














1 Var* SymTab : :getVar 


(String name) 
2 Var*select=NULL; / /最 佳 选择 


3 if(varTab.find(name)!=varTab.end())t{ 
4 vector<Var*>&list=*varTab[name]; 


5 int pathLen=scopePath. size(); / /当前 路 径 长 度 





6 int maxLen=0; / /已 经 匹配 的 最 
7 for(int i=0;i<list.size();i++){ 

8 int ien= list[i]->getPath().size(); 

9 if(len<=pathLeng&e& 

10 list[i]->getPath()[len-1]==scopePath[len-1]){ 

11 if(len>maxLen){ / /选取 最 长 匹配 
12 maxLen=]en; 

13 select=1ist[i]; 

14 } 

15 } 

16 } 

17 } 

18 if(!select) 

19 SEMERROR(VAR_UN_DEC, name ) ， / /变量 未 声明 
20 return select,; 

21 } 








程序 中 使 用 指针 变量 select 记 录 最 终 获取 的 变量 对 象 ， 初 始 化 为 
NULL。 





第 4 行 根据 变量 名 访问 散 列 表 ， 获 取 同 名 变量 列表 list。 


第 5~16 行 根据 当前 的 作用 域 路 径 scopePath 获 取 “ 最 近 ” 的 变量 对 象 。 
通过 过 历 同 名 变量 列表 ， 选 择 一 个 变量 ， 访 变量 的 作用 域 路 径 与 当前 作 
用 域 路 径 scopePath 匹 配 度 最 高 。 


举 个 例子 来 说 ， 假 设 获取 名 为 “var” 的 变量 对 象 ， 在 var 的 同名 变量 
列表 内 保存 了 四 个 变量 ， 其 作用 域 路 径 分 别 
为 %Y0”、“/0/1”、“Y01213/4”、“/0/2”"， 当 前 作用 域 路 径 为 “/0/2/5”。 按 照 最 


长 匹配 原则 ， 我 们 应 该 选择 作用 域 路 径 为 "0/2” 的 变量 。 首 先 可 以 确定 
待 选择 的 变量 作用 域 路 径 长 度 一 定 不 大 于 当前 作用 域 路 径 长 度 ， 比 如 路 
径 %0/2/3/4” 的 变量 在 作用 域 3 内 ， 与 作用 域 5 是 并 列 的， 变量 不 可 见 。 然 
后 考虑 待 选择 的 变量 作用 域 路 径 一 定 是 当前 作用 域 路 径 的 前 级 ， 否 则 变 
量 依然 不 可 见 ， 比 如 作用 域 %0/1”。 对 于 作用 域 路 径 %0>， 第 一 个 元 素 
与 %/0/2/5” 的 第 一 个 元 素 相同 ， 因 此 路 径 匹 配 ， 匹 配 长 度 为 1， 这 是 因为 
到 达 同 一 个 作用 域 的 作用 域 子 路 径 一 定 相同 。 而 对 于 作用 域 路 

径 %/0/2”， 第 二 个 元 素 与 "0/2/5?” 的 第 二 个 元 素 相 同 ， 因 此 路 径 匹 配 ， 匹 
配 长 度 为 2。 故 而 ， 最 终 选 择 的 变量 的 作用 域 路 径 为 "0/2”。 








第 9 行 判断 条 件 选择 变量 作用 域 长 度 不 大 于 当前 作用 域 路 径 长 度 的 
变 


和 








第 10 行 判断 变量 作用 域 路 径 的 最 后 一 个 元 系 是 任 与 当前 作用 域 路 径 
对 应 的 元 素 相同 。 


第 11~14 行 选择 最 长 匹配 ， 将 变量 结果 保存 到 Select 中。 





第 18 行 判断 是 否 获取 到 变量 ， 人 否则 报告 变量 未 声明 语义 错误 。 


函数 getVar 的 调用 时 机 发 生 在 变量 名 被 引用 的 表达 式 中 ， 递 归 下 降 
子 程序 idexpr 中 处 理 了 变量 和 数组 的 访问 ， 此 处 便 需 要 根据 标识 符 的 名 
称 获取 已 保存 的 变量 对 象 。 











3.3 罗 ”函数 管理 


函数 管理 涉及 函数 对 象 的 创建 、 将 函数 对 象 添加 到 函数 表 funTab 和 
从 函数 表 funTab 取 出 函数 对 象 。 相 比 而 言 ， 函 数 对 象 的 创建 比 变量 对 象 
的 创建 简单 。 而 函数 对 象 的 添加 则 较为 复 茶 ， 这 是 因为 需要 考虑 浮 数 定 
义 和 冰 数 声明 的 不 同 。 获 取 函 数 对 象 时 ， 除 了 提供 函数 名 外 ， 还 需要 所 
供 实 际 参 数列 表 ， 以 方便 符号 表 对 函数 参数 类 型 进行 检查 。 





= 


1. 创 建 函 数 对 象 


本 





无 论 是 函数 定义 还 是 函数 声明 ， 它 们 在 文法 级 别 具 有 公共 的 首部 。 
在 递归 下 降 子 程序 idtaill 内 ， 完 全 可 以 根据 函数 的 首部 确定 函数 的 基本 要 
素 : 函数 名 、 返 回 值 类 型 和 参数 列表 。 








1 void Parser::idtail 


0 ext,Tag t,bool ptr,string name)t{ 
if(match(LPAREN)){ / /函数 


symtab.enter(); 
vector<Var*>paraList; / /参数 列表 


WW 


para(paraList); 
if(!match(RPAREN)) 
recovery(F(LBRACK)_(SEMICON) 
; RPAREN_LOST, RPAREN_WRONG ) ， 
Fun* fun=new Fun(ext,t,name,paraList); 


‘ONAOO 


10 funtail(fun); 
11 symtab.leave( ); 


} 
13 elsef / /变量 


14 symtab.addVar (varrdef(ext,t,false,name)); 
15 deflist(ext,t); 

16 

17 } 


18 void Parser::funtail 


(Fun*f){ 

19 if(match(SEMICON) ){ / /函数 声 
20 symtab.decFun 
(f); 

21 } 

22 elsef 

23 symtab.defFun 
(f); / /函数 定义 

24 block( ); 

25 symtab.endDefFun 
(); / /结束 函数 定义 

26 } 

27 } 





第 9 行 创建 了 函数 对 象 ， 传 入 的 参数 ext、t、name、paralist 分 别 表示 
函数 是 否 声明 为 extern 形 式 、 函 数 的 返回 类 型 、 函 数 名 和 形式 参数 列 
表 。 至 于 有 具体 fun 函 数 对 象 是 函数 声明 还 是 定义 ， 需 要 由 funtail 子 程序 确 
和 


第 20 行 调用 的 decFun 函 数 用 于 将 函数 对 象 以 声明 形式 插入 函数 表 。 


第 23 行 调用 的 defFun 函 数 用 于 将 函数 对 象 以 定义 形式 插入 函数 表 。 


第 25 行 处 理 函 数 定 义 结束 的 工作 。 


创建 函数 对 象 时 ， 除 了 保存 函数 的 基本 信息 外 ， 还 需要 为 参数 变量 
计算 栈 帧 偏 移 ， 以 保证 函数 能 正常 访问 参数 变量 。 





bool ext,Tag t,string n,vector<Var*>&paraList) 


externed=ext,; 

type=t; 

name=n; 

paraVar=paraList,; 

curEsp=0; 

maxDepth=0; 

for(int i=0,argoff=8;i<paraVar.size();i++,argOff+=4){ 
10 paraVar[i]->setoffset(argOoff); 


‘OONORON ~ 





第 3~6 行 保存 了 函数 的 基本 信息 ， 第 7~8 行 将 curEsp 和 maxDepth 初 始 
化 为 0。 


第 9~10 行 计算 参数 相对 于 栈 帧 基 址 的 偏 移 ， 参 数 传递 都 是 固定 的 4 
字 节 大 小 ， 且 栈 帧 仿 移 都 是 正 值 ， 从 8 字 节 开始 。 在 代码 生成 中 会 详细 
描述 函数 栈 帧 。 


2. 添 加 函数 对 象 


首先 看 声明 函数 对 象 的 添加 ，decFun 实 现代 码 如 下 : 





1 void SymTab : :decFun 


Cu fun)t 
fun->setExtern(true),; 


3 if(funTab.find(fun->getName())==funTab.end())t / /未 找到 函数 


4 funTab [fun->getName( )]=fun， / /添加 函数 

5 } 

6 elsef 

7 Fun* last=funTab[fun->getName()]; / /获取 已 经 保存 的 函数 
8 if(!last->match 

(fun))t 

9 SEMERROR( FUN_DEC_ERR, fun->getName()); / /函数 声明 冲突 
10 } 

11 delete fun; 

12 } 

13 } 





首先 ， 第 2 行将 函数 对 象 fun 的 externed 字 段 设 为 tue， 表 示 一 个 函数 


5 行 在 函数 表 funTab 中 查找 同名 的 函数 对 象 ， 如 果 不 存 在 ， 则 
表示 第 一 次 声明 函数 ， 将 该 函数 插入 funTab 中 。 


第 6~12 行 处 理 函 数 表 funTab 时 ， 吞 funTab 中 出 现 了 与 僻 添 加 函数 同 
名 的 函数 对 象 ， 则 需要 判断 当前 函数 声明 是 否 与 原 保存 的 函数 对 象 匹 
配 。 


第 7 行 取 出 已 保存 的 函数 对 象 last， 第 8 行使 用 match 函 数 匹配 欲 添 加 
函数 与 已 保存 的 同名 函数 对 象 的 形式 ， 如 果 匹 配 失败 ， 则 报告 函数 声明 
语义 错误 I 大。 


函数 match 的 实现 如 下 : 





1 bool Fun::match 


(Fun*f){ 

2 if(name!=f->name) 

3 return false; 

4 if(paraVar.size()!=f->paraVar.size()) 
5 return false; 

6 int len=paraVar.size(); 

7 for(int i=0;i<len;i++){ 

8 if(GenIR: :typeCheck 
































(paraVvar[i],f->paraVar[i]))t{ / /类 型 兼容 

9 if(paraVar[i]->getType()!=f->paraVar[i]->getType())t{ 

10 SEMWARN(FUN_DEC_CONFLICT, name ) ， /V 函数 声明 
11 } 

12 } 

13 else 

14 return false; 

15 } 

16 if(type!=f->type)t{ / /匹配 成 功 后 再 验 
17 SEMWARN (FUN_RET_CONFLICT, name ) ， / /函数 返回 人 
18 } 

19 return true; 

20 } 





第 2~5 行 验证 两 个 函数 的 函数 名 和 参数 的 数量 是 否 相 同 。 





第 7~15 行 验证 两 个 函数 的 参数 类 型 是 否 匹配 ， 第 8 行使 用 代码 生成 
器 的 typeCheck 函 数 检查 两 个 函数 的 类 型 是 否 可 以 相互 转换 〈 即 兼容 ， 
比如 类 型 ints 和 int[] 可 以 兼容 ) 。 第 9 行 表示 如 果 两 个 类 型 可 以 相互 转换 
但 是 不 相同 ， 使 用 SEMWARN 报 告 “ 函 数 声 明 冲 突 ” 语 义 和 警告 。 如 果 参 数 


列表 内 有 一 个 参数 类 型 不 能 兼容 ， 则 表示 函数 声明 不 能 正确 匹配 。 





第 16~18 行 检查 两 个 函数 返回 值 的 类 型 ， 返 回 类 型 不 能 决定 函数 的 
唯一 形式 ， 当 两 个 函数 的 返回 类 型 相同 时 ， 报 告 “返回 值 类 型 冲突 ”语义 


] 隘 


疯 数 对 象 的 添加 分 为 两 个 部 分 来 完成 : defFun 和 endDefFun 。 





1 void SymTab::defFun 


(Fun* fun)t{ 
2 if(fun->getExtern())t //extern 不 允 





3 SEMERROR(EXTERN_FUN_DEF,fun->getName() ) 

4 fun->setExtern(false); 

5 } 

6 if(funTab.find(fun->getName())==funTab.end())t{ 

7 funTab[fun->getName()]=fun,; / /添加 函数 
8 funList.push_back(fun->getName( ) ) ， 

9 J 

10 elsef / /已 经 声明 
11 Fun*last=funTab[fun->getName()]; 

12 if(last->getExtern())t{ / /之 前 是 声明 
13 if(!last->match 

(fun) ){ / /不 匹配 声明 

14 SEMERROR( FUN_DEC_ERR, fun->getName( )); 

15 

16 last->define 

(fun); / /保存 定义 信息 

17 


} 
18 elsef{ // 


19 SEMERROR( FUN_RE_DEF, fun->getName( )); 

















20 } 

21 delete fun,; // 
22 fun=]ast,; // 
23 

24 curFun=fun; // 
25 ir->genFunHead 

(curFun); / /产生 函数 入 

26 } 


27 void Fun::define 


(Fun*def){ 

28 externed=false; // 
29 paraVar=def->paraVar; // 找 贝 
30 } 


31 void SymTab: :endDefFun 





(){ 

32 ir->genFunTail 

(curFun); / /产生 函数 出 口 

33 curFun=NULL; // 
34 } 





函数 defFun 将 定义 函数 对 象 插入 函数 表 。 第 2~5 行 检查 函数 首部 是 
否 包 售 了 extern 关 键 字 ， 如 果 包 含 则 报告 语义 错误 ， 并 将 函数 对 象 的 











externed 字 段 设 为 false， 表 示 该 函数 是 被 定义 的 。 在 文法 定义 章节 中 ， 
我 们 讨论 了 带 extem 的 函数 定义 形式 ， 针 对 externed 字 段 的 语义 检查 便 是 
对 语法 分 析 的 补充 。 


第 6~9 行 表示 当前 名 称 的 函数 对 象 首 次 添加 到 冰 数 表 。 





第 10~20 行 处 理 函 数 表 中 己 有 同名 函数 对 象 的 情况 。 如 果 函 数 表 内 
存在 的 函数 对 象 是 函数 声明 ， 则 当前 添加 的 函数 定义 是 合理 操作 ， 只 需 
要 检查 函数 形式 是 否 匹 配 即 可 。 如 果 函 数 表 内 存在 的 函数 对 象 是 函数 定 
义 ， 则 当前 添加 函数 定义 是 非法 操作 。C 语 言 不 提供 函数 重 载 的 机 制 ， 
因此 会 报告 函数 重 定义 语义 错误 。 








第 16 行 调用 define 函 数 将 函数 定义 的 信息 保存 到 原 有 的 函数 对 象 。 
define 函 数 的 实现 在 第 27~30 行 ， 即 设置 externed 字 段 为 false， 并 将 函数 
定义 的 参数 列表 保存 到 函数 表 内 存储 的 函数 对 象 内 。 这 是 因为 函数 体内 
的 代码 要 用 到 参数 的 名 称 ， 原 有 的 函数 声明 中 参数 名 字 已 经 无 效 。 





第 25 行 调用 代码 生成 器 的 genFunHead 产 生 函 数 的 首部 ， 在 代码 生成 
章节 中 会 详细 描述 


函数 endDefFun 处 理 函 数 定 义 结束 后 的 工作 。 首 先 为 当前 函数 对 象 
curFun 产 生 函 数 的 尾部 ， 然 后 将 curFun 指 针 置 为 NULL， 表 示 当 前 作用 
域 离开 了 函数 作用 域 ， 并 进入 了 全 局 作用 域 。 


3. 获 取 函 数 对 象 





由 于 函数 对 象 是 直接 插入 函数 表 中 的 ， 因 此 使 用 函数 名 可 以 唯一 确 
函数 对 象 。 在 语法 分 析 中 ， 访 问 函数 对 象 的 时 机 是 在 函数 调用 的 时 
候 ， 因 此 获取 函数 对 象 时 还 需要 额外 检查 函数 调用 的 实际 参数 类 型 是 否 

与 国 数 声明 的 形式 参数 类 型 匹配 。 





1 Fun* SymTab: :getFun 


(string name,vector<Var*>& args){ 

2 if(funTab.find(name)!=funTab.end())t{ 
3 Fun* last=funTab[name]; 

4 if(!last->match 


(args))t 

5 SEMERROR( FUN_CALL_ERR, name ); // 形 参与 实 参 不 匹配 
6 return NULL; 

7 } 

8 return last,; 

9 } 

10 SEMERROR( FUN_UN_DEC, name ) ， / /函数 未 声明 

11 return NULL,; 

12 } 








第 2 行 中 根据 函数 名 name 取 出 函数 表 funTab 的 函数 对 象 ljast， 如 果 函 
数 对 象 不 存在 则 报告 “函数 未 声明 ”语义 错误 。 








第 4 行 检查 实际 参数 列表 是 否 与 形式 参数 列表 匹配 ， 如 果 不 匹 配 报 


告 语 义 错误 1 大。 





1 bool Fun::match 


(vector<Var*>&args)t{ 

2 if(paraVar.size()!=args.size()) 
3 return false; 

4 int len=paraVar.size(); 

5 for(int i=0;i<len;i++){ 

6 if(!GenIR: :typeCheck 











(paraVvar[i],args[i])) / /类 型 检查 不 兼容 








return false; 


return true; 


POON 











第 2~3 行 检查 实 参 和 形 参 列表 的 长 度 是 否 相 同 。 


第 5~8 行 遍历 参数 列表 ， 并 使 用 typeCheck 函 数 检 测 每 个 形式 参数 和 


实际 参数 类 型 是 售 兼 容 。 


3.4 语义 分 析 


在 符号 表 管 理 中 ， 涉 及 了 很 多 语义 错误 的 处 理 。 根 据 图 3-18 描 述 的 
语义 动作 ， 语 义 分 析 是 “穿插 ”在 符 写 表 管理 和 代码 生成 中 的 。 比 如 在 获 
取 函 数 对 象 时 ， 会 检查 函数 对 象 是 否 存 在 ， 这 本 里 束 是 语义 分 析 的 流 
程 。 本 节 所 述 的 语义 分 析 是 解决 语法 分 析 不 能 或 者 很 难处 理 的 上 下 文 相 
关 信 息 ， 而 语义 分 析 的 实现 则 由 具体 的 符号 表 管 理 功 能 和 代码 生成 功能 
来 完成 。 








客观 地 说 ， 语 义 分 析 是 符号 表 管 理 和 代码 生成 过 程 中 ， 对 不 满足 既 
定语 言 特性 的 处 理 。 比 如 ， 根 据 文法 定义 ， 代 码 “void x; ”是 合法 的 。 
在 创建 变量 对 象 时 需要 记录 变量 的 类 型 void， 此 时 符号 表 需 要 判断 类 型 
的 合法 性 ， 指 出 void 类 型 的 变量 不 合法 。 换 句 话 说 ， 如 末代 码 中 不 存在 
语义 错误 ， 符 号 表 完 全 可 以 无 视 void 类 型 变量 的 情况 ， 直 接 记 录 变 量 的 
类 型 。 显 然 这 并 不 现实 ， 符 号 表 管理 和 代码 生成 必须 检查 输入 代码 的 合 
法 性 ， 就 像 处 理 程 序 中 潜在 的 bug 那 样 ， 保 证 后 继 工 作 的 顺利 进行 ， 这 
就 是 语义 分 析 。 























在 我 们 实现 的 编译 器 中 ， 从 三 个 方面 检查 程序 语义 的 合法 性 : 声明 
与 定义 、 表 达 式 和 语句 。 


3.4.1 声明 与 定义 语义 检查 


在 符号 表 管 理 中 ， 我 们 列举 的 代码 中 涉及 了 若干 声明 与 定义 类 语义 
普 误 。 包 括 变 量 重 定义 、 函 数 重 定义 、 变 量 未 声明 、 函 数 未 声明 、 函 数 
声明 与 定义 不 匹配 、 函 数 定义 不 允许 使 用 extern 等 。 此 外 ， 声 明 与 定义 
的 语义 检查 还 包括 变量 不 能 是 void 类 型 、 数 组 长 度 必须 是 正 整 数 、 变 量 
声明 时 不 允许 初始 化 、 全 局 变量 初始 值 不 是 常量 、 变 量 初始 化 类 型 错 


误 。 




















变量 对 象 构造 时 ， 会 调用 setType 函 数 处 理 类 型 信息 。 





1 void Var::setType 


(Tag t){ 

2 type=t; 

3 if(type==KW_VOID){ //V0id 变 量 
4 SEMERROR(VOID_VAR, 

ys // 不 允许 使 用 

VOid 变 量 

5 type=Kw_INT， / /默认 为 
int 

6 } 

7 if(!externed&é&type==KW_INT)size=4; / /整数 


8 else if(!externed&&type==KW_CHAR)size=1,; / /字符 








第 2 行 记 录 了 变量 类 型 type， 第 3~6 行 处 理 void 类 型 变量 的 语义 错 
误 ， 并 将 void 变量 转化 为 int 类 型 ， 第 7~8 行 计算 变量 的 大 小 。 





对 于 数组 变量 ， 需 要 在 声明 时 指定 数组 长 度 〈 长 度 为 常量 ) 。 





1 void Var::setArray 


(int len){ 
2 if(len<=0){ 
3 SEMERROR(ARRAY_LEN_INVALID 


rname ) ; // 数 组 长 度 小 于 等 于 


0 错误 


4 return ， 

5 

6 elsef 

7 isArray=true,; 

8 isLeft=false; / /数组 不 能 作为 
9 arraySize=len; 

10 if(!externed)size*=]len; / /类 型 大 小 乘 | 
11 } 

12 } 





第 2~5 行 判断 数组 长 度 不 大 于 0 时 ， 报 告 语义 错误 。 


第 6~11 行 记录 数组 的 基本 信息 ， 其 中 isLeft=false 表 示 数 组 不 能 作为 


左 值 ， 计 算数 组 大 小 时 则 是 将 数组 类 型 大 小 与 数组 长 度 相 乘 。 


变量 声明 时 初始 化 部 分 由 setInit 处 理 。 





1 bool Var::setInit 


(){ 

2 Var*init=initData; // 取 出 初 但 
3 if(!init)return false; 

4 inited=false,; 

5 if(externed) 

6 SEMERROR(DEC_INIT_DENY, 

name ) ; / /声明 不 允许 初始 化 

7 else if(!GenIR::typeCheck 


(this, init)) 





























8 SEMERROR(VAR_INIT_ERR, 

name); / / 类 型 检查 不 兼容 

9 else if(init->literal)t{ // 初 值 为 常量 
10 inited=true; 

11 if(init->isArray) // 初 值 是 数 
12 ptrVval=init->name; / /字符 指 
= 常量 字符 品名 

13 else 

14 intVal=init->intVal; / /复制 
15 } 


17 if(scopePath.size( )==1) / /初始 化 全 局 ; 





18 SEMERROR( GLB_INIT_ERR, 


name ) ; / /全 局 变量 初始 化 必须 是 常量 
19 else 


20 return true; 


} 
22 return false; 





语法 分 析 的 init 子 程序 将 变量 的 初 值 数 据 记 录 到 initData 中 ，setInit 将 
initData 指 癌 的 变量 对 象 数 据 取 出 ， 进 行 变 量 初 始 化 工作 。 





第 5~6 行 表示 变量 对 象 的 externed 字 上段 为 tue， 为 变量 声明 ， 不 能 进 
行 初始 化 。 





第 7~8 行 检查 初 值 变 量 对 象 类 型 是 否 与 被 初始 化 的 变量 对 象 类 型 兼 





中 








第 9~15 行 考虑 初 值 变 量 对 象 是 第 量 的 情况 。 

















第 11~12 行 表示 初 值 变 量 既是 第 量 义 是 数组 ， 满 足 这 两 个 条 件 的 只 
有 了 字符 串 第 量 。 由 于 文法 定义 中 未 涉及 数组 变量 初始 化 的 语法 ， 而 前 面 
的 类 型 检查 已 经 通过 ， 因 此 使 用 常量 字符 串 初 始 化 的 变量 一 定 是 字符 指 
针 。init 的 name 字 段 便 是 常量 字符 串 的 名 称 ， 使 用 ptrVal 字 上 段 来 记录 初 值 








字符 串 的 名 称 。 


第 13~14 行 表示 初 值 变 量 是 基本 类 型 的 第 量 ， 因 此 直接 复制 初 值 数 
据 intVal 即 可 。 


第 16~21 行 处 理 初 值 不 是 常量 的 情况 。 





第 17~18 行 表示 被 初始 化 的 是 全 局 变量 ， 由 于 上 自 定义 语言 规定 全 局 
变量 不 能 使 用 非常 量 初 始 化 ， 因 此 这 里 报告 语义 错误 。 


第 19~20 行 处 理 局 部 变量 的 初始 化 ， 由 于 局 部 变量 的 初 值 不 是 常 
量 ， 即 局 部 变量 的 初始 值 是 一 个 表达 式 。 因 此 需要 先 计算 初 值 表达 式 的 
值 ， 然 后 使 用 赋值 语句 对 局 部 变量 初始 化 。 此 处 返回 true， 表 示 setInit 调 
用 结束 后 ， 需 要 生成 initData 到 this 的 赋值 语句 。 











在 符号 表 管 理 的 添加 变量 对 象 章节 描述 addVar 函 数 实现 时 ， 提 到 的 
函数 genVarInit 是 setInit 函 数 的 调用 者 。 





1 _ bool GenIR: :genVarInit 


(Var*var){ 

2 if(var->getName()[0]=='<"')return false; 

3 Symtab .addInst(new InterInst(OP_DEC， var ) ) 

4 if(var->setInit()) / /初始 化 
5 genTwoOp 


(var,ASSIGN 
6 ,Var->getInitData()); / /赋值 语 各 


name=init->name 


return true; 


Co ~ 








在 函数 genVarInit 中 ， 首 先 处 理 整 型 毅 量 和 字符 种 量 的 变量 对 象 ， 
它们 不 需要 初始 化 。 

第 3 行 生 成 了 变量 的 定义 指令 ， 以 方便 代码 生成 时 处 理 变 量 的 初始 
化 。 


第 4~6 行 调用 setInit 对 变量 对 象 初始 化 ， 如 果 人 返回 值 为 tue， 则 表示 
使 用 了 非常 量 初始 化 局 部 变量 ， 因 此 需要 生成 赋值 语句 代码 。 被 赋值 的 
变量 为 var， 值 为 var 对 象 内 initData 指 向 的 变量 。 函 数 genTwoOp 对 双 操 
作 数 运算 表达 式 进行 代码 生成 ， 代 码 生 成 章节 会 对 此 进行 详细 描述 








3 要 志趣 语 从 知 


表达 式 的 语义 检查 包括 函数 调用 时 实 参 与 形 参 的 类 型 不 匹配 、 表 达 
式 不 能 作为 左 值 、 函 数 的 void 返回 值 不 能 参与 表达 式 运算 、 赋 值 类 型 不 
匹配 、 表 达 式 不 能 是 基本 类 型 、 表 达 式 不 是 基本 类 型 、 数 组 索引 运算 错 
误 。 在 符号 表 管 理 中 ， 已 经 描述 了 函数 实 参 和 形 参 类 型 匹配 语义 的 分 
析 。 


在 赋值 表达 式 中 ， 被 赋值 的 可 能 是 变量 Ca=1) ， 也 可 能 是 数组 索 
引 表达 式 (a[0]=1) 或 指针 表达 式 (*p=1) 。 因 此 ， 赋 值 运算 符 两 侧 都 
是 表达 式 形 式 ， 文 法 上 我 们 也 没有 做 额外 的 限制 。 但 是 语义 分 析 时 ， 必 
须要 求 被 赋值 的 表达 式 是 左 值 表达 式 。 除 了 赋值 表达 式 中 需要 处 理 左 值 
表达 式 ， 前 绥 自 加 自 减 〈++i) 、 后 级 自 加 自 减 (it++〉 和 取 址 运算 
(&a) 也 要 求 运算 对 象 是 左 值 。 














1 Var* GenIR::genOneOpRight 


(Var*val,Tag opt){ 
2 if(!val)return NULL; 
3 if(val->isVoid 


())t 
4 SEMERROR( EXPR_IS_VOID 


); //VOid 变 量 


5 return NULL; 
6 


} 
7 if(!val->getLeft 


SEMERROR(EXPR_NOT_LEFT_VAL 


























9 return Val 

10 } 

11 if(opt==INC)return genIncR 
(val); // 右 自 加 语句 
12 if(opt==DEC)return genDecR 
(val); // 右 自 减 语句 
13 return val; 

14 } 





函数 genOneOpRight 处 理 单 目 后 级 运算 符 表 达 式 ， 即 后 级 自 加 自 减 
表达 到 





第 7~10 行 调用 变量 对 象 的 getLeft 函 数 获取 判断 变量 是 否 是 左 值 ， 如 
果 不 是 左 值 ， 则 报告 语义 错误 。 


函数 genIncR 和 genDecR 分 别处 理 后 绥 上 自 加 目 减 表达 式 的 翻译 。 





在 上 述 代 码 的 第 3~6 行 ， 判 断 了 变量 是 否 为 void 类 型 。void 类 型 的 变 
量 并 非 来 源 于 使 用 void 声明 的 变量 〈setType 函 数 将 void 变量 转化 为 int 类 
型 ) ， 而 是 来 源 于 返回 值 类 型 为 void 的 函数 调用 ， 代 码 生成 中 会 描述 这 


一 实现 细节 。 





赋值 表达 式 运算 中 ， 需 要 进行 必要 的 类 型 转换 ， 因 此 赋值 运算 符 两 


侧 的 表达 式 类 型 必须 是 兼容 的 ， 使 用 代码 生成 器 的 typeCheck 函 数 检查 
赋值 表达 式 的 类 型 。 


指针 表达 式 要 求 运算 的 表达 式 必 须 是 指针 或 者 数组 ， 而 不 能 是 基本 
类 型 。 而 在 一 般 的 算术 表达 式 中 ， 要 求 运算 的 表达 式 必 须 是 基本 类 型 而 
非 指针 或 者 数组 。 





数组 索引 表达 式 中 ， 对 类 型 的 要 求 比较 复杂 。 





1 Var* GenIR: :genArray 


(Var*array,Var*index){ 
2 


if(!array || !index)return NULL; 
3 if(array->isVoid()||index->isVoid()){ 
4 SEMERROR( EXPR_IS_ VOID 
); 
5 return NULL; 
6 } 
7 if(array->isBase() || !index->isBase())t{ 
8 SEMERROR (ARR_TYPE_ERR 


9 return index; 
10 } 

11 return genptr 
(genAdd 


(array index)); 
12 } 





在 第 7~10 行 ， 进 行 对 数组 索引 运算 的 语义 检查 。 要 求 数组 变量 对 象 
array 不 能 是 基本 类 型 ， 索 引 表 达 式 index 必 须 是 基本 类 型 ， 否 则 报告 语 
义 错误 。 


第 11 行 生成 数组 索引 表达 式 的 代码 ， 此 处 将 数组 索引 运算 拆 分 为 两 
步 : 根据 数组 名 和 索引 做 加 法 运算 得 到 数组 元 素 地 址 ， 再 对 地 址 做 指针 
运算 获取 数组 元 素 的 值 。 


表达 式 的 语义 检查 和 具体 的 表达 式 翻译 相关 性 很 大 ， 因 此 在 后 面 表 
达 式 的 代码 生成 时 ， 需 要 留意 不 同 表 达 式 语义 检查 的 内 容 。 





343 六 何 语 义 栓 查 





自 定 义 语 言 设计 的 语句 基本 都 是 独立 的 单位 ， 很 少 存 在 上 下 文 相关 
的 信息 。 不 过 有 三 个 语句 较为 特殊 : break、continue 和 retum 语 句 ， 它 们 
的 出 现 和 位 置 都 有 一 定 的 限制 ， 相 对 应 的 语义 错误 是 break 语 名 不 在 循 
环 和 switch 语 句 内 、continue 语 句 不 在 循环 语句 内 和 return 语 名 与 函数 返 
回 值 不 匹配 。 


break 语 句 只 能 出 现在 循环 语句 和 switch 语 句 内 部 ， 由 于 复合 语句 支 
持 嵌 套 ， 因 此 需要 使 用 与 作用 域 管理 类 似 的 机 制 记录 复合 语句 的 能 套 层 
次 。 在 代码 生成 中 ， 代 码 生成 器 使 用 栈 记录 复合 语句 的 类 型 、 入 口 标签 
和 出 口 标签 。 只 要 翻译 break 语 名 时 栈 中 存在 循环 或 switch 复 合 语句 ， 
break 语 句 便 是 合法 的 ， 和 否则 报告 语义 错误 。 


continue 语 句 与 break 语 句 类 似 ， 不 过 翻译 continue 语 名 时 ， 只 需要 天 


心 循环 语句 的 舱 套 层次 。 


retum 语 句 有 两 种 形式 : 有 返回 值 的 return 和 无 返回 值 的 return。 由 于 
我 们 设计 的 函数 限定 返回 值 只 能 是 基本 类 型 ， 而 基本 类 型 只 有 int 和 char 
类 型 ， 它 们 是 相互 兼容 的 ， 因 此 retum 语 句 的 语义 分 析 是 检查 retum 语 名 
和 函数 返回 值 类 型 分 别 为 void 及 基本 类 型 时 的 情况 。 








1 void GenIR: :genReturn 


(Var*ret){ 
































2 if(!ret)return; 

3 Fun*fun=symtab.getCurFun(); 

4 if(ret->isVoid()&&fun->getType()!=Kw_ VOID 

5 | |ret->isBase( )&&fun->getType( )==KW_VOID){ / /类 型 不 兼容 
6 SEMERROR(RETURN_ERR 

)3 /Areturn 语 句 和 函数 返回 值 类 型 不 匹配 

7 return; 

8 

9 InterInst* returnpoint=fun->getReturnpoint(); / /获取 返回 点 
10 if(ret->isVoid()) 

11 Symtab .addInst(new InterInst(OP_RET, returnPoint ) ) ; 

12 elsef 

13 if(ret->isRef())ret=genAssign(ret); / /处理 
ret 是 

*p 情 况 

14 Symtab .addInst(new InterInst(OP_RETV, returnPoint, ret) ); 

15 } 

16 } 





代码 的 第 4~8 行 对 return 语 句 的 返回 类 型 进行 检查 。 如 果 函 数 返 回 值 
不 是 void， 那 么 return 语 句 返 回 值 类 型 也 不 能 是 void。 如 果 函 数 返回 值 是 
void，return 语 名 返回 值 类 型 也 必须 是 void。 和 否则 ， 报 告 语 义 错误 。 


第 9~15 行 为 retum 语 句 的 翻译 代码 ， 详 见 3.5.3 市 描述 的 内 容 。 


3.4.4 ”错误 处 理 


在 前 面 讨论 语义 分 析 时 ， 语 义 错误 都 是 使 用 SEMERROR 宏 进行 处 
理 ， 这 与 词法 错误 、 语 法 错误 的 处 理 类 似 。 不 过 语义 分 析 除 了 报告 语义 
错误 ， 还 包含 语义 警告 SEMWARN， 比 如 验证 函数 声明 形 参 匹配 时 触发 
的 语义 警告 。 语 义 分 析 中 处 理 的 语义 错误 和 语义 警告 如 表 3-7 所 示 。 








表 3-7 语义 错误 与 语义 警告 表 


语义 错误 /语义 警告 类 型 语义 错误 /语义 警告 信息 








VAR RE DEF 变量 重 定 义 
FUN RE DEF 阴 数 重 定义 
VAR UN DEC 变量 未 声明 
FUN UN DEC 函数 未 声明 
FUN DEC ERR 函数 声明 与 定义 不 匹配 
FUN CALL ERR 函数 形 参 与 实 参 不 匹配 
DEC INIT DENY 变量 声明 时 不 允许 初始 化 
EXTERN FUN DEF 男 数 定义 不 能 声明 extern 
ARRAY LEN INVALID 数组 长 度 应 该 是 正 整数 
VAR INIT ERR 变量 初始 化 类 型 错误 
GLB INIT ERR 全 局 变量 初始 化 值 不 是 常量 
VOID VAR 变量 不 能 声明 为 void 类 型 
EXPR NOT LEFT VAL 无 效 的 左 值 表达 式 
ASSIGN TYPE ERR 赋值 表达 式 类 型 不 兼容 
EXPR IS BASE 表达 式 操 作 数 不 能 是 基本 类 型 
EXPR NOT BASE 表达 式 操 作 数 不 是 基本 类 型 
数组 索引 运算 类 型 错误 


ARR TYPE ERR 
void 的 函数 返回 值 不 能 参与 表达 式 运算 


break 语句 不 能 出 现在 循环 或 switch 语句 之 外 
continue 不 能 出 现在 循环 之 外 
return 语句 与 函数 返回 值 类 型 不 匹配 
函数 参数 列表 类 型 冲突 
函数 返回 值 类 型 不 精确 匹配 


EXPR IS VOID 





BREAK ERR 
CONTINUE ERR 
RETURN ERR 
FUN_ DEC CONFLICT 
FUN RET CONFLICT 


在 扫描 器 内 ， 我 们 计算 了 字符 的 行 的 位 置 ， 还 保存 了 处 理 的 源 文 件 
名 称 。 根 据 表 3-7 提 供 的 语义 错误 /警告 信息 ， 实 现 语 义 错 误 / 警 告 信息 输 


出 的 相关 代码 如 下 : 





1 /* 
2 语义 错误 类 型 


*/ 
enum SemError 


WW 


ls 





VAR_RE_DEF, / /变量 重 定义 


10 


11 


12 


extern 


13 


14 


15 


16 


17 


18 


19 


20 


21 


FUN_RE_DEF， 


VAR_UN_DEC, 


FUN_UN_DEC, 


FUN_DEC_ERR, 


FUN_CALL_ERR, 


DEC_INIT_DENY, 


EXTERN_FUN_DEF， 


ARRAY_LEN_INVALID, 


VAR_INIT_ERR, 


GLB_INIT_ERR, 


VOID_VAR, 


EXPR_NOT_LEFT_VAL, 


ASSIGN_TYPE_ERR, 


EXPR_IS_BASE, 


EXPR_NOT_BASE, 


ARR_TYPE_ERR, 


/ /函数 重 定义 


/ /变量 未 声明 


/ /函数 未 声明 


/ /函数 声明 与 定义 不 匹配 





/ /声明 不 允许 初始 化 


/ /函数 声明 不 能 使 用 


/ /数组 长 度 无 效 





/ /变量 初始 化 类 型 错误 


/ /全 局 变量 初始 化 值 不 是 常量 


/A/VOid 变 量 


/ /无 效 的 左 值 表达 式 





/ /赋值 类 型 不 匹配 


/ /表达 式 操作 数 不 能 是 基本 类 型 


/ /表达 式 操作 数 不 是 基本 类 型 


/ /数组 运算 类 型 错误 


22 EXPR_IS_VOID, / /表达 式 不 能 是 


VOID 类 型 


23 BREAK_ERR, //break 不 在 循环 或 


switch-case 中 








24 CONTINUE_ERR, //Ccontinue 不 在 循环 








25 RETURN_ERR /Areturn 语 句 与 函数 返 


26 } 
27 / 
28 ”语义 警告 类 型 


29 */ 
30 enum Semwarn 





{ 

31 FUN_DEC_CONFLICT, / /函数 参数 列表 类 型 冲突 
32 FUN_RET_CONFLICT / /函数 返回 值 类 型 冲突 
33 }; 

34 /* 


35 ”打印 语义 错误 


36 */ 
37 void Error::semError 


(int code,string name){ 


38 static const char *semErrorTable[]={ 
39 "变量 重 定义 
1 
, 
40 "函数 重 定义 


41 "变量 未 声明 











42 "函数 未 声明 









































43 "函数 声明 与 定义 不 匹配 
I 
, 
44 "函数 形 参 与 实 参 不 匹配 
I 
了 
45 "变量 声明 时 不 允许 初始 化 
I 
了 
46 "函数 定义 不 能 使 用 声明 保留 字 
extern", 
47 "数组 长 度 应 该 是 正 整数 
I 
也 
48 "变量 初始 化 类 型 错误 
I 
了 
49 "全 局 变量 初始 化 值 不 是 常量 
I 
了 
50 "变量 不 能 声明 为 
VOid 类 型 
I 
过 
51 "无 效 的 左 值 表 达 式 
$e 
要 
52 "赋值 表达 式 类 型 不 兼容 
I 
了 
53 "表达 式 操作 数 不 能 是 基本 类 型 
I 
了 
54 "表达 式 操作 数 不 是 基本 类 型 
1 
La 
55 "数组 索引 运算 类 型 错误 
I 
村 
56 "VO1id 的 函数 返回 值 不 能 参与 表达 式 运 算 











57 "break 语 句 不 能 出 现在 循环 或 


SWitch 语 句 之 外 














58 "CONtinue 不 能 出 现在 循环 之 外 
mh 
此 
59 "return 语 句 和 函数 返回 值 类 型 不 匹配 
nm 
60 }; 
61 errorNum++， 
62 printf("%s< 第 
%d 行 


> 语义 错误 


: %S %s.\n", 


63 scanner->getFile(), 
64 scanner->getLine(), 
65 name.c_str(), 

66 semErrorTable[code]); 
67 } 

68 /* 

69 打印 语义 警告 

70 */ 


71 void Error::semwarn 


(int code,string name) 




















72 { 
73 / /语义 警告 信息 串 
74 static const char *semwarnTable[]={ 
75 "函数 参数 列表 类 型 冲突 
1 
了 
76 "函数 返回 值 类 型 不 精确 匹配 
1 
77 了 
78 WarnNum++， 
79 printf("%s< 第 
%d 行 
> 语义 警告 


: %S %s.\n", 
80 scanner->getFile(), 


81 scanner->getLine(), 
82 name.c_str(), 

83 semwarnTable[code]); 
84 } 

85 #define SEMERROR 


(code,name) Error::semError(code,name) 
86 #define SEMWARN 


(code,name) Error::semWarn(code,name) 





第 1~33 行 使 用 枚 举 类 型 SemError 和 SemWarn 记 录 了 所 有 语义 错误 / 警 


告 的 类 型 。 


第 34~67 行 定义 输出 语义 错误 信息 的 函数 semError， 其 中 数组 
semErrorTable 保 存 了 与 语义 错误 类 型 对 应 的 信息 。 第 61 行 使 用 变量 
errorNum 记 录 编 译 器 产生 的 错误 数 。 第 62~67 行 调用 了 扫描 器 的 方法 获 
取 语 义 错误 产生 位 置 所 在 的 文件 名 和 行 写 。 


第 68~84 行 定义 输出 语义 警告 信息 的 函数 semWarn， 其 中 数组 
semWarnTable 保 存 了 与 语义 警告 类 型 对 应 的 信息 。 第 78 行 使 用 变量 
warmnNum 记 录 编 译 器 产生 的 警告 数 。 第 79~84 行 调用 了 扫描 器 的 方法 获 
取 语 义 错误 产生 位 置 所 在 的 文件 名 和 行 号 。 








第 85 行 使 用 宏 SEMERROR 封 装 semFError 函 数 的 调用 。 


第 86 行 使 用 宏 SEMWARN 封 装 semWarn 函 数 的 调用 。 


至 此 ， 我 们 描述 了 语义 分 析 实 现 的 细 市 。 由 于 语义 分 析 罕 插 在 符号 
表 管 理 和 代码 生成 器 的 实现 中 ， 虽 然 在 符号 表 管 理 中 描述 了 所 有 相关 的 


语义 分 析 细 节 ， 但 是 代码 生成 涉及 的 语义 分 析 并 未 详尽 描述 。 在 接 下 来 
的 代码 生成 章节 中 ， 会 对 相关 的 语义 分 析 做 进一步 前 述 。 


3.5 ”代码 生成 


源 代 码 经 过 词法 分 析 、 语 法 分 析 、 语 义 分 析 后 ， 如 果 未 产生 错误 ， 
则 通过 语法 模块 相应 的 语义 动作 进行 代码 生成 。 代 码 生成 本 质 上 是 将 语 
法 模块 翻译 为 汇编 代码 ， 我 们 可 以 选择 在 识别 每 个 语法 模块 时 ， 直 接 输 
出 对 应 的 汇编 代码 。 


例如 对 于 全 局 变量 a 和 b， 赋 值 语 句 “a=b; ” 便 可 以 翻译 为 : 





mov eax, [b] 
mov [al],eax 





根据 赋值 表达 式 的 文法 定义 ， 我 们 在 赋值 表达 式 的 递归 下 降 子 程序 
内 插入 代码 生成 对 应 的 语义 动作 代码 。 





1 //<assexpr>-><orexpr><asstail> 
2 Var* Parser::assexpr 


() 

3 Var*]lval=orexpr 

(); 

4 return asstail 

(lval); 

5 

6 //<asstail>->ASSIGN <orexpr><asstail> | * 


7 Var* Parser::asstail 


(Var*1lval)t{ 
8 if(match(ASSIGN 


Var*val=orexpr 


(); 


10 Var*rval=asstail 


(val); 
11 Var*result=ir .genTwoOp 


(lval,ASSIGN, rval); 


12 return result,; 
13 

14 return lval,; 

15 } 


16 Var* GenIR: :genTwo0p 


(Var*lval,Tag opt,Var*rval)t{ 


17 if(opt==ASSIGN){ 

18 fprintf(file,"mov eax, [%s]\n",rval->getName().c_str()); 
19 fprintf(file,"mov [%s],eax\n",lval->getName().c_str()); 
20 return lval; 

21 

22 } 





在 函数 asstail 中 ， 我 们 考虑 到 了 赋值 运算 符 的 右 结合 性 质 ， 因 此 在 
第 11 行 ， 将 赋值 语句 代码 生成 的 函数 调用 genTwoOp 放 在 了 第 10 行 asstail 
调用 之 后 ， 这 样 就 可 以 保证 赋值 表达 式 从 右 向 左 计 算 。 如 果 表 达 式 的 运 
算 符 是 左 结合 的 ， 那 么 只 需要 调换 第 10、11 行 代码 的 位 置 ， 并 修改 相应 
的 参数 即 可 ， 例 如 : 








10 Var*result=ir.genTwoOp(lval,ASSIGN, val); 
11 Var*rval=asstail(result); 
12 return rval; 








从 这 里 也 可 以 看 出 运算 符 的 结合 性 只 是 影响 了 代码 生成 动作 的 位 
置 ， 而 不 会 影响 文法 产生 式 的 结构 。 


第 16~21 行 描述 了 赋值 表达 式 的 代码 生成 片段 ， 即 生成 上 述 两 条 汇 
编 语 句 。 当 然 ， 赋 值 表达 式 的 返回 值 应 该 是 被 赋值 的 变量 Ilval。 然 而 ， 
这 里 只 给 出 了 全 局 变量 到 全 局 变量 赋值 表达 式 的 翻译 。 由 于 变量 存储 的 
多 样 性 ， 比 如 局 部 变量 使 用 [ebp+ 栈 帧 偏 移 ] 的 方式 访问 ， 而 常量 则 直接 
使 用 立即 数 访问 ， 这 样 的 翻译 方式 考虑 的 组 合 情 况 就 太 多 了 。 








另外 ， 直 接 将 代码 的 翻译 工作 硬 编 码 昌 然 可 以 完成 代码 生成 ， 但 是 
当 需 要 生成 其 他 目标 指令 集 的 汇编 代码 或 者 对 代码 进行 优化 时 就 非常 困 
难 。 因 此 ， 需 要 设计 一 个 中 间 层 来 屏蔽 具体 机 絮 的 指令 集 细节 ， 同 时 避 
免考 虑 代码 生成 时 变量 存储 访问 的 复杂 性 。 











如 图 3-22 所 示 ， 代 码 生 成 需 根据 语义 动作 ， 并 非 直接 将 语法 模块 翻 
译 为 x86 汇 编 代 码 ， 而 是 生成 中 间 人 代码。 中 间 代 码 生 成 后 ， 再 将 中 间 代 
码 转换 为 具体 机 器 指令 集 的 汇编 代码 。 如 采编 译 器 文 持 代码 优化 ， 优 化 
融会 对 中 间 代 码 和 目标 代码 进行 处 理 ， 生 成 更 高 效 的 目标 代码 。 











优化 如 = 





图 3-22 ”代码 生成 器 结构 


3.5.1 ”中 间 代 码 设计 
编译 器 使 用 的 中 间 代 码 形式 有 多 种 ， 比 如 抽象 语法 树 形式 、 三 元 
式 、 四 元 式 、 静 态 单 赋值 形式 等 ， 本 书 采用 四 元 式 作为 中 间 代码 形式 。 


四 元 式 包含 四 个 基本 字段 ， 操作 符 op、 运 算 结果 result、 第 一 个 操 


作 数 argl1、 第 二 个 操作 数 arg2， 其 一 般 形式 为 : 





result = arg1 op arg2 





四 元 式 的 含义 为 使 用 操作 符 op 得 到 操作 数 argl 和 arg2 的 计算 结 
并 将 结果 保存 到 result 中 。 





如 表 3-8 所 示 ， 并 非 每 一 条 中 间 代 码 指令 都 使 用 了 四 元 式 的 所 有 字 
段 ， 比 如 操作 符 op_neg 表 示 取 负 运 算 ， 未 使 用 arg2 字 段 。 其 至 某 些 字段 
具有 多 重 含义 ， 比 如 操作 符 op_proc 表 示 无 返回 值 函 数 调 用 ，argl 字 段 在 
表达 式 中 一 般 表 示 一 个 变量 对 象 ， 而 在 这 里 表示 被 调用 的 函数 对 象 。 





表 3-8 中 间 代 码 指令 


| ae Ta 可 
op_label | 定义 标签 工 
mi | | : | -| Am 
Bw | | 和 | = | wy 
wad | xz | ya xz 
pab | xx |， | yz 
om | yz 
oa | xz 
pmod | xz | yy | xiz 
wns | xx | yy | - xy 
oe | x > 
pe | x | yy | | wy -=D 
or | = 
me | = | yy Ta x 一 
| xs 一 习 
mm | x | | | xG 
mt | rr | yy -| ly 
wm | x | yy | z: | wx0&eD 
| 注 | 和 莹 | 癌 | x 1D 
pl | ery 
oe | xx | yy | ex 
mm | x | yy zy 
mim | |  - gotoL 
op it 这 sgotoL 
op_jf if(!s)goto L 
arg :| 传人 参数 
me | 调用 fun0 
pa | x | | x=fon0 
oe retum 
prey | -| eums 


中 间 代 码 指 令 的 操作 符 的 定义 为 : 





1 enum Operator 


2 OP_NOP, // 空 指令 


10 


11 


12 


13 


14 


15 


16 


17 


18 


OP_DEC ， 


OP_ENTRY, OP_EXIT, 


OP_AS, 


OP_ADD, OP_SUB, OP_MUL, OP_DIV, OP_MOD, 





OP_NEG, 


OP_GT, OP_GE, OP_LT, OP_LE, OP_EQU, OP_NE, 





OP_NOT， 


OP_AND, OP_OR, 


OP_LEA, 


OP_SET, OP_GET, 


OP_JMP, 


OP_JT, OP_JF, OP_JNE, 


OP_ARG, 


OP_PROC, 


OP_CALL, 


OP_RET, 


/ /声明 








/ /函数 出 入 








/ /赋值 


// 取 负 


/ /关系 元 算 


// 非 


/ /与 、 或 


// 取 址 


// 指 针 运算 


/ /无 条 件 跳 转 


/ /条 件 跳 转 


/ /参数 传递 


/ /调用 过 程 


/ /调用 函数 





// 直 # 








Xt 
六 








19 OP_RETV / / 带 数据 返 匠 











20 }; 





其 中 操作 符 标 签 都 使 用 大 写 形式 ，OP_NOP 指 令 作为 操作 符 的 默认 
值 。 


我 们 使 用 InterInst 数 据 结构 描述 一 条 中 间 代 码 指令 





1 class InterInst 


{ 

2 string label,; / /标签 

3 Operator op; / /操作 符 
4 Var *result; / /运算 结果 
5 Var*arg1; / /参数 

1 

6 Var *arg2; / /参数 

2 

7 Fun*fun; / /函数 

8 InterInSstx*target / / 跳 转 标号 
9 }; 











字段 ljabel 表 示 当 前 指令 是 标签 还 是 真正 的 指令 。 如 果 1label 为 空 串 ， 
则 表示 正常 的 指令 ， 否 则 记录 标签 的 名 称 。 


字段 op、result、arg1 和 arg2 分 别 记 录 了 四 元 式 的 基本 要 素 。 


字段 fun 记 录 某 些 四 元 式 使 用 的 函数 对 象 ， 比 如 op_proc 指 令 调 用 的 
函数 。 


字段 target 记 录 某 些 四 元 式 使 用 的 标签 ， 比 如 op_jmp 指 令 的 目标 标 
签 。 


在 代码 生成 器 中 ， 语 法 模块 的 翻译 结果 不 再 是 目标 指令 集 的 汇编 代 
码 ， 而 是 中 间 代 码 指令 序列 。 在 Fun 对 象 中 的 interCode 字 段 是 
Vector<InterInst*> 类 型 ， 它 记录 了 函数 的 中 间 人 代码 指令 序列 。 当 所 有 的 
代码 被 编译 器 处 理 完毕 后 ， 每 个 interCode 都 保存 了 对 应 函数 的 中 间 代 码 
翻译 结果 ， 此 时 只 需要 将 这 些 中 间 代 码 再 翻译 为 目标 指令 集 的 汇编 代码 
即 可 。 








3.5.2 ”程序 运行 时 存储 





在 代码 翻译 的 过 程 中 ， 涉 及 很 多 程序 运行 时 的 细节 。 不 同 的 操作 系 
统 和 指令 集体 系 结构 ， 其 代码 翻译 方式 也 不 尽 相 同 。 因 此 在 讨论 具体 语 
法 模块 的 代码 生成 之 前 ， 我 们 需要 了 解 程序 运行 时 存储 相关 的 知识 。 








1. 进 程 内 存 组 织 





我 们 知道 在 操作 系统 中 ， 程 序 运行 时 是 以 进程 形式 存在 的 。 在 高 级 
语言 层面 ， 我 们 面 对 的 是 变量 、 函 数 、 表 达 式 和 语句 等 语言 元 系 ， 而 在 
进程 的 内 存 空 间 中 ， 所 有 的 高 级 语言 信息 都 转化 为 二 进 制 形式 。 卉 清高 
级 语言 元 素 与 进程 、 内 存 占用 情况 的 对 应 关系 ， 对 代码 生成 至 关 重 要 。 





如 图 3-23 所 示 ， 在 32 位 的 Linux 系 统 中 ， 进 程 拥有 4GB 的 线性 地 址 空 
间 。 其 中 高 1GB 的 地 址 空间 分 配给 操作 系统 内 核 ， 剩 余 的 3GB 地 址 空间 
称 为 用 户 空间 ， 用 于 存放 进程 的 用 户 级 代码 和 数据 。 在 用 户 空间 中 ， 最 
为 关键 的 部 分 为 代码 段 、 数 据 段 、 堆 和 栈 。 





图 3-23 ”进程 内 存 组 织 


其 中 ， 代 码 段 “.text” 保 存 进程 的 三 进 制 代码 ， 其 中 CPU 的 程序 计数 
铝 pc 指 针 束 是 指 同 代码 段 区 的 某 条 指令 的 起 始 地 址 。 程 友 执 行 时 ，pc 指 
针 在 代码 段 内 移动 ， 实 现 程 序 的 顺序 、 跳 转 执 行 。 





数据 段 “.data” 保 存 进程 的 静态 数据 ， 比 如 全 局 变量 、 常 量 字符 串 
等 。 在 Linux 系 统 中 ， 一 般 将 初始 化 的 全 局 变量 放 在 数据 段 ， 将 未 初始 
化 的 全 局 变量 放 在 “.bss” 段 ， 而 将 利和 量 字 符 串 放 在 具有 只 读 属 性 
的 “rodata" 段 内 《〈 也 称 文字 池 ) 。 为 了 降低 编译 系统 实现 的 复杂 度 ， 我 
们 将 所 有 的 数据 放 在 数据 段 内 。 


进程 空间 内 的 堆 并 非 数据 结构 学 科 中 所 摘 述 的 最 大 (小 ) 堆 ， 它 是 
保存 程序 运行 时 动态 分 配 的 数据 所 在 的 地 址 空间 。C 语 言 的 malloc 和 free 
操作 的 内 存 便 是 堆 的 内 存 。 当 堆 空 间 不 足 时 ， 操 作 系 统 会 目 动 增加 堆 的 
大 小 ， 堆 的 地 址 空间 是 同 高 地 址 方 辐 增长 的 。 我 们 设计 的 目 定 义 语言 不 
涉及 动态 内 存 分 配 ， 因 此 不 会 使 用 堆 空 间 。 











进程 空间 内 的 栈 与 数据 结构 理论 中 所 描述 的 栈 比较 相似 ， 它 满足 先 
进 后 出 的 原则 ， 而 且 是 一 块 连续 的 内 存 空间 。CPU 的 栈 指 针 寄存 右 esp 
总 是 指向 栈 顶 位 置 ， 当 数据 入 栈 时 ，esp 减 小 ， 当 数据 出 栈 时 ，esp 增 
加 。 当 栈 空 间 不 足 时 ， 操 作 系 统 会 目 动 增加 栈 的 大 小 ， 栈 的 地 址 空间 是 
问 低 地 址 方 癌 增长 的 。 栈 在 程序 语言 的 功能 实现 中 十 分 重要 ， 函 数 调 
用 、 实 际 参 数 传 递 以 及 局 部 变量 的 存储 都 是 由 栈 来 完成 。 








在 代码 生成 中 ， 需 要 明确 每 次 语法 模块 的 翻译 所 涉及 的 进程 内 存 。 
源 代 码 定义 的 全 局 变量 和 字符 串 常 量 需 要 保存 到 数据 段 ， 函 数 体内 的 表 
达 式 计算 和 复合 语句 以 二 进 制 代码 的 形式 保存 到 代码 段 ， 函 数 调用 的 实 
际 参 数 和 函数 内 的 局 部 变量 保存 在 栈 内 。 








2. 函 数 栈 帧 管理 


从 进程 内 存 空间 的 角度 来 看 ， 函 数 调 用 是 一 个 复杂 的 过 程 。 它 罕 涉 
到 代码 段 中 函数 定义 、 调 用 和 返回 的 二 进 制 代码 。 同 时 ， 参 数 的 传递 、 
局 部 变量 的 管理 都 与 栈 恩 恩 相 关 。 一 般 使 用 栈 帧 描述 一 次 函数 的 调用 过 





程 ， 当 发 生 函 数 调用 时 ， 需 要 开辟 栈 帧 保存 实际 参数 、 局 部 变量 等 信 
恩 ， 当 函数 调用 结束 时 ， 需 要 将 函数 的 栈 帧 释放 。 





原 esp 一 一 > 低 

实际 参数 地 [ebp+?] 
址 [ebp+r8] 
方 p 


返回 地 址 向 [ebp+4] 
pea 


[ebp-4] 
[ebp-?] 


~ 


图 3-24 ”函数 栈 帧 


如 图 3-24 所 示 ， 函 数 调 用 前 ， 栈 顶 在 “ 原 esp” 指 同 的 位 置 。 函 数 调 用 
发 生 时 ， 依 次 入 栈 的 数据 为 实际 人 参数、 函数 返 回 地 址 、ebp 寄 存 器 值 和 
局 部 变量 。 

根据 C 语 言 函 数 调用 规则 ， 实 际 参 数 从 右 癌 左 依次 入 栈 。 假 设 函 数 
调用 形式 为 : 


fun(0,1); 


使 用 push 指 令 将 实际 参数 入 栈 。 





push 1 
push 0 


实际 参数 入 栈 完 毕 后 ， 使 用 call 指 令 进行 函数 调用 。 





call fun 


旨 令 call fun 的 含义 为 ， 将 call 指 令 的 下 一 条 指令 的 起 始 地 址 (函数 
调用 后 的 返回 地 址 ) 入 栈 ， 然 后 跳 转 到 fun 标 和 俭 的 位 置 继 续 执 行 。 


跳 转 到 fun 标 签 后 ， 便 开始 执行 fun 函 数 的 指令 。 最 先 执 行 的 两 条 指 


A 上 腹 
令 是 : 


push ebp 
mov ebp,esp 








其 中 ， 第 一 条 指令 是 将 ebp 寄存 器 值 入 栈 。 第 二 条 指令 是 将 栈 指 针 
esp 保 存 到 ebp。 这 样 ebp 指 同 的 内 存 保存 的 内 容 恰好 是 原 ebp 寄存 器 的 
值 。 而 实际 参数 相对 于 ebp 寄存 器 的 俩 移 依次 为 8、12、16.……. (假设 实 


际 参数 都 是 4 字 节 大 小 。) 





[ebp+8 ] 实际 参数 


1 


[ebp+12] 


5 





设 定好 ebp 寄存 器 后 ， 接 下 来 为 局 部 变量 开辟 栈 空 间 ， 假 如 fun 函 数 
有 两 个 int 类 型 的 局 部 变量 。 


sub esp,8 











这 样 栈 指针 esp 便 指向 了 最 后 一 个 局 部 变量 ， 而 局 部 变量 相对 于 ebp 
寄存 器 的 偏 移 依次 为 4、-8、-12..….. (假设 局 部 变量 都 是 4 字 节 大 
小 。) 




















[ebp -4] 局 部 变量 
2: 


[ebp-8] 


一 般 称 ebp 为 函数 栈 帧 的 基 址 ， 对 实际 参数 和 局 部 变量 的 访问 都 是 
对 基 址 ebp 加 偏 移 的 内 存 访问 。 由 于 每 次 函数 调用 时 产生 的 函数 栈 帧 都 
有 自己 的 ebp 值 ， 因 此 每 次 函数 调用 都 需要 首先 将 ebp 寄存 器 入 栈 保存 。 


函数 调用 结束 后 ， 需 要 将 函数 栈 帧 释放 。 首 先 处 理 函数 的 返回 值 ， 
假设 fun 函 数 返回 值 为 0。 





mov eax,0 


根据 C 语 言 函 数 调用 规则 ， 函 数 调用 后 ， 返 回 值 保 存在 寄存 右 eax 





然后 释放 局 部 变量 的 空间 ， 恢 复 ebp 寄 存 占 的 值 。 


mov esp,ebp 
pop ebp 





第 一 条 指令 将 栈 指 针 esp 恢 复 为 先前 保存 在 ebp 寄存 器 中 的 值 ， 然 后 
使 用 pop 指 令 恢 复 ebp 的 值 。 


最 后 使 用 ret 指 令 实现 函数 返回 。 


函数 返回 指令 ret 的 含义 为 ， 取 出 栈 顶 保存 的 函数 返回 地 址 ， 然 后 跳 
转 到 该 地 址 继续 执行 











函数 返回 后 ， 栈 指针 esp 并 未 恢复 到 “ 原 esp” 的 位 置 ， 因 此 函数 调用 
要 电 


者 需要 显 式 地 释放 实际 参数 的 空间 。 


add esp,8 


由 于 调用 函数 fun 时 ， 压 入 了 两 个 4 字 市 参数 到 栈 中 ， 因 此 需要 将 esp 
指针 加 上 8 字 市 ， 恢 复 到 调用 函数 之 前 的 状态 。 


在 整个 函数 调用 的 过 程 中 ， 我 们 称 从 实际 参数 到 局 部 变量 所 开辟 的 
内 存 空 间 为 函数 栈 帧 。 而 函数 栈 帧 基 址 由 ebp 寄存 器 保存 ， 对 实际 参数 
和 局 部 变量 的 访问 都 是 通过 ebp 的 基 址 寻 址 来 实现 。 





根据 函数 的 栈 帧 管理 方式 ， 来 决定 函数 定义 代码 和 调用 代码 的 翻 
。 假 设 有 如 下 函数 定义 : 





1 int fun(int x){ 
2 int y=x; 
return y; 


3 
4} 





将 该 函数 定义 翻译 为 x86 汇 编 代 码 形式 为 : 





1 fun 
2 push 

ebp 
3 mov 

ebp, esp 
4 sub esp, 4 
5 mov eax, [ebp+8] 
6 mov [ebp- 4], eax 
7 mov eax, [ebp-4] 
8 mov 

esp, ebp 
9 pop 


ebp 


10 ret 








第 1 行为 函数 名 标签 fn， 它 记录 函数 开始 执行 的 位 置 。 


第 2~3 行 为 进入 函数 代码 ， 用 于 保存 ebpp， 设 定 新 的 栈 帧 基 址 。 





第 4 行为 局 部 变量 开辟 栈 帧 空间 。 














第 5~6 行 通过 ebp 的 基 址 寻 址 访问 参数 变量 和 局 部 变量 ， 完 成 函数 内 
代码 的 翻译 。 


第 7 行将 函数 返回 值 保 存 到 eax 寄 存 器 中 。 


第 8~10 行 为 退出 函数 代码 ， 恢 复 栈 指 针 esp、 栈 基 址 epp， 并 执行 函 
数 返回 。 


对 于 函数 调用 者 ， 假 设 函 数 调用 形式 为 : 





glb=fun(0); 





假定 glb 变 量 为 全 局 变量 ， 那 么 函数 调用 翻译 为 x86 汇 编 的 形式 为 : 








1 push 0 

2 call fun 

3 add esp,4 

4 mov [glb],eax 





其 中 push 指 令 将 参数 0 入 栈 ， 然 后 使 用 call 指 令 调用 函数 fun。fun 调 





用 结束 后 ， 需 要 释放 实际 参数 的 栈 空 间 ， 因 此 需要 将 esp 加 4。 最 后 将 保 
存在 eax 的 函数 返回 值 传送 给 全 局 变量 glb。 


3.5.3 ”函数 定义 与 retum 语 句 翻 译 


明确 了 函数 栈 帧 管理 的 方式 后 ， 函 数 定 义 的 代码 翻译 就 比较 简单 
了 。 在 前 面 描述 的 符号 表 的 defFun 函 数 实现 中 ， 调 用 了 genFunHead 产 生 
函数 的 入 口 代码 。 而 在 符号 表 的 endDefFun 函 数 实 现 中 ， 调 用 了 
genFunTail 产 生 函 数 的 出 口 代码 。 





1 void GenIR: :genFunHead 


ao 
function->enterscope(); 





























3 Symtab .addInst(new InterInst(OP_ENTRY 

,function) ) / /函数 入 

4 function->setReturnpoint(new InterInst ) ， / /创建 返 
5 } 

6 void GenIR::genFunTail 

(Fun*function){ 

7 symtab.addInst(function->getReturnpoint()); / /函数 返回 点 
8 Symtab .addInst(new InterInst(OP_EXIT 

,function) ) / /函数 出 

9 function->leaveScope( ) ， 

10 } 


第 1~5 行 为 genFunHead 实 现代 码 ， 首 先 调用 Fun 的 enterScope 进 入 画 
数 作用 域 ， 然 后 创建 中 间 代 码 指令 OP_ENTRY 提 供 函 数 入 口 ， 并 使 用 符 
号 表 提供 的 addInst 函 数 将 该 指令 添加 到 函数 对 象 的 interCode 内 。 最 后 使 
用 无 参 InterInst 构 造 函 数 创建 一 个 唯一 的 标签 ， 保 存 到 函数 对 象 的 


returnPoint 字 上 段 。 


第 6~10 行 为 geanFunTail 实 现代 码 ， 首 先 将 函数 对 象 的 returnPoint 指 疝 
的 标签 添加 到 interCode， 然 后 创建 中 间 代 码 指 令 OP_EXIT 以 提供 函数 出 
口 ， 并 添加 到 interCode。 最 后 调用 leaveScope 退 出 函数 作用 域 。 


在 上 述 代 码 中 ， 总 是 涉及 函数 对 象 的 字段 retumPoint。 该 字段 指 问 
一 个 InterImnst 对 象 ， 表 示 函 数 退 出 代码 的 位 置 。 之 所 以 保存 这 个 字段 ， 
是 为 了 翻译 return 语 句 的 需要 


假设 函数 体内 出 现 了 多 个 return 指 令 





int fun(){ 


1 
2 return 1; 
3 ed 

4 return 0; 
5 


} 





由 于 每 次 retum 语 句 执 行 后 都 需要 执行 函数 退出 代码 ， 为 了 避免 每 
次 翻译 return 语 句 都 重复 产生 函数 退出 代码 ， 因 此 使 用 returnPoint 记 录 退 
出 代码 的 位 置 ， 每 次 return 语 名 执行 后 只 需要 跳 转 到 该 位 置 即 可 。 我 们 
希望 fun 函 数 翻译 为 中 间 代 人 码 形式 如 下 : 








1 fun: 

2 OP_ENTRY fun 

3 OP_RETV 1 goto returnPoint 
4 守 

5 OP_RETV 6 goto returnPoint 
6 _ returnPoint : 

7 OP_EXIT fun 








根据 前 面 的 要 求 ，retum 语 句 的 翻译 如 下 : 





1 void GenIR: :genReturn 






































(Var*ret){ 

2 if(!ret)return; 

3 Fun*fun=symtab.getCurFun( ); 

4 if(ret->isVoid()&&fun->getType()!=Kw_ VOID 

5 ||Iret->isBase( )&&fun->getType( )==KW_VOID){ // 类 ; 
6 SEMERROR( RETURN_ERR); /Areturn 语 句 返 回 值 与 函数 返回 类 型 不 | 
7 return; 

8 } 

9 InterInst* returnPoint=fun->getReturnPoint 

(); / /获取 返回 点 

10 if(ret->isVoid()) 

11 Symtab .addInst(new InterInst(OP_RET 

rreturnPoint ) ) ， 

12 elsef 

13 if(ret->isRef())ret=genAssign(ret); / /处 i 
Tet 是 

*p 情 况 

14 Symtab .addInst(new InterInst(OP_RETV 


rreturnPoint, ret) )， 
15 
16 } 


二 一 


第 2~8 行 为 语义 分 析 的 代码 ， 前 面 已 经 描述 过 。 
第 9 行 取 出 函数 对 象 的 returnPoint 字 段 。 


第 10~11 行 判断 函数 返回 值 变 量 为 void 类 型 ， 因 此 产生 中 间 代 码 指 
令 OP RET。 


第 12~15 行 判断 函数 具有 返回 值 ， 因 此 产生 中 间 代 码 指 令 
OP_RETV。 


其 中 第 13 行 处 理 形 如 “return*p; ”的 返回 语句 ， 在 指针 运算 的 翻译 
中 会 对 此 做 详细 描述 。 





我 们 根据 返回 值 变 量 的 类 型 来 决定 returmn 语 句 的 翻译 结果 ， 这 里 涉 
及 void 类 型 的 返回 值 变量 。 





1 Vvoid Parser: :statement 


(){ 

2 switch(look->tag) 

3 { 

4 二 二 

5 case KW_RETURN : 

6 move( ); 

7 ir.genReturn 
(altexpr()); // 产 生 





return 语 句 
9 break; 


13 Var* Parser::altexpr 


14 if(EXPR_FIRST) 














15 return expr(); 
16 return Var : :getVoid 
(); / /返回 特殊 
VOid 变 量 

17 } 





根据 statement 子 程序 对 return 语 句 的 处 理 ，genRetum 函 数 的 参数 为 
altexpr 子 程序 的 返回 值 。 在 altexpr 子 程序 中 ， 对 于 空 表 达 式 返回 void 类 


型 变量 。 


3.5.4 ”表达 式 翻 译 


在 高 级 语言 程序 中 ， 程 序 真正 的 计算 操作 是 由 各 种 表达 式 计 算 完成 
的 ， 因 此 表达 式 可 以 理解 为 程序 计算 的 抽象 。 由 于 表达 式 的 结构 具有 相 
似 性 ， 因 此 表达 式 的 翻译 可 以 分 类 处理 。 我 们 将 表达 式 分 为 5 类 
运算 表达 式 、 前 级 单 目 运算 表达 式 、 后 级 单 目 运算 表达 式 、 数 组 索引 表 
达 式 和 函数 调用 表达 式 。 


1. 指 针 运 算 的 处 理 


指针 运算 使 表达 式 的 翻译 复杂 化 ， 因 此 在 讨论 其 他 表达 式 的 翻译 
前 ， 我 们 首先 处 理 指 针 运 算 表达 式 的 代码 生成 。 





1 Var* GenIR::genptr 


(Var*val)t{ 
2 if(val->isBase()){ 
3 SEMERROR( EXPR_IS_BASE); / /基本 类 型 不 i 


4 return val; 

5 } 

6 Var*tmp=new Var(symtab.getScopePath() 

7 ,Val->getType(),false); 

8 tmp->setLeft(true); / /指针 运算 结果 为 
9 tmp->setPointer 

(val); / /设置 指针 变量 

10 symtab.addVar (tmp); 


11 return tmp; 





第 2~5 行 实现 指针 运算 的 语义 分 析 ， 对 于 基本 类 型 的 变量 ， 是 不 能 
进行 指针 运算 的 。 





第 6 行 创建 与 指针 变量 val 的 类 型 相同 的 基本 类 型 变量 tmp。 


指针 运算 的 结果 可 以 作为 左 值 ， 即 可 以 取 址 或 者 被 赋值 。 因 此 第 8 
行将 tmp 设 置 为 左 值 。 





第 9 行将 指针 变量 val 记 录 到 tmp 的 ptr 字 段 ， 表 示 tmp 变 量 来 源 于 对 val 
变量 的 指针 运算 结果 。 


第 10~11 行 将 tmp 添 加 到 符号 表 ， 并 返回 。 





我 们 发 现 ， 处 理 指针 运算 表达 式 时 ， 并 未 产生 任何 中 间 人 代码。 这 是 
因为 指针 运算 的 特殊 性 。 假 设 变量 x 为 int 类 型 的 变量 ，p 为 int 类 型 的 指针 





对 于 语 名 1， 我 们 可 以 翻译 为 如 下 中 间 代 码 : 


OP_GET tmp p 
OP_AS x tmp 





中 间 代 码 指 令 OP_GET 指 令 将 p 指 针 指 向 的 内 存 中 的 内 容 复 制 到 
tmp， 然 后 OP_AS 将 tmp 的 内 容 复 制 到 x。 





而 对 于 语句 2， 应 该 翻译 为 如 下 中 间 代 码 : 


OP_SET x p 





中 间 代 码 指令 OP_SET 将 x 的 值 复制 到 p 指 针 指 向 的 内 存 ， 而 与 genPtr 
中 产生 的 临时 变量 tmp 无 任何 关系 ! 





由 此 ， 我 们 可 以 得 出 一 个 结论 : 如 果 将 指针 运算 的 结果 tmp 作 为 右 
值 ， 那 么 可 以 使 用 tmp 参 与 表达 式 的 翻译 ， 如 采 tmp 作 为 左 值 使 用 ， 那 么 
仍 使 用 原来 的 指针 变量 参与 表达 式 的 翻译 。 


通过 取 址 运算 表达 式 的 翻译 ， 可 以 清晰 地 看 出 这 一 扣 


1 Var* GenIR::genLea 


(Var*val)t{ 
2 0 >getLeft()){ 
3 SEMERROR( EXPR_NOT_LEFT_VAL ); / /不 | 


return val; 


} 
if(val. 


7 return val->getPointer(); / /取出 变 上 








8 elsef / /i 
9 Var* tmp=new Var(Symtab .getScopePath() 

10 ,Val->getType(),true); / /产生 局 音 
tmp 

11 symtab.addVar (tmp); 

12 Symtab .addInst(new InterInst(OP_LEA 

,tmp, val) ) ; 

13 return tmp 

14 } 











第 2~5 行 实现 取 址 运算 的 语义 分 析 ， 不 能 对 非 左 值 变量 做 取 址 操 
作 。 











第 6 行 判断 变量 val 是 否 是 指针 运算 的 结 采 ，isRef 函 数 表示 变量 对 象 
的 ptr 是 否 有 效 。 如 条 val 是 指针 运算 的 结果 ， 则 直接 返回 变量 的 ptr 字 
2 





第 8~14 行 处 理 val 是 普通 变量 对 象 的 情况 。 使 用 中 间 代 码 操作 符 
OP_LEA 将 val 变 量 的 地 址 取出 复制 到 变量 tmp， 并 返回 。 


除了 对 指针 运算 的 结果 进行 取 址 运算 外 ， 其 他 表达 式 运算 也 需要 考 
处 操作 数 是 否 是 指针 运算 结果 的 情况 ， 因 为 指针 运算 结果 变量 与 普通 的 
基本 类 型 变量 在 运算 特性 上 完全 等 价 。 





1 Var* GenIR::genAssign 


(Var*val){ 


2 Var*tmp=new Var(symtab.getScopePath(),val); / /复制 变量 信息 


3 symtab.addVar (tmp); 

4 if(val->isRef()) 

5 Symtab .addInst(new InterInst(OP_GET 
6 ;tmp,val->getPointer())); 

7 else 

8 Symtab .addInst(new InterInst(OP_AS 
:tmp,Val) ) ; 

9 return tmp 

10 } 





我 们 使 用 单 参数 的 genAssign 函 数 处 理 指针 运算 的 结果 变量 作为 右 
值 的 情况 。 第 3 行 判 断 val 如 果 是 指针 运算 结果 ， 那 么 就 使 用 OP_GET 指 
令 产 生 val 变 量 的 pt 字段 到 tmp 的 指针 运算 。 否 则 ， 产 生变 量 val 到 tmp 的 
赋值 运算 。 





1 Var* GenIR::genAssign 


(Var*]lval,Var*rval)t{ 

if(!lval->getLeft())t{ 
SEMERROR( EXPR_NOT_LEFT_VAL ); 
return rval; 


DUO 


} 
if(!typeCheck 


(lval,rval))t{ 
7 SEMERROR(ASSIGN_TYPE_ERR ) ， 


8 return rval 

9 } 

10 if(rval->isRef()) / / 处 理 右 值 
(*p) 

11 rval=genAssign 

(rval); 

12 if(lval->isRef()) / /处理 左 什 
(*p) 


13 Symtab .addInst(new InterInst(OP_SET 


14 ,rval,lval->getPointer())); 
15 else 
16 Symtab .addInst(new InterInst(OP_AS 


ey rval)); 
return lval,; 
J 





指针 运算 结果 作为 左 值 被 赋值 的 情况 由 双 参 数 genAssign 函 数 处 
1 





第 2~5 行 检查 被 赋值 的 变量 是 人 否 是 左 值 ， 第 6~9 行 使 用 typeCheck 函 
数 检查 赋值 表达 式 的 两 个 操作 数 类 型 是 否 兼 容 。 








第 10~11 行 处 理 赋值 表达 式 的 右 值 rval， 如 果 rval 是 指针 运算 结果 ， 
则 使 用 单 操作 数 genAssign 取 出 rval 的 值 。 


第 12~16 行 处 理 赋值 表达 式 的 左 值 Ival， 如 果 ]lval 是 指针 运算 结果 ， 
则 产生 rval 到 ]val 的 ptr 的 指针 赋值 运算 。 否 则 ， 产 生 rval 到 ]val 的 赋值 运 
上 岂 


函数 typeCheck 的 实现 如 下 : 





1 bool GenIR: :typeCheck 


(Var*]lval,Var*rval)t{ 

2 bool flag=false; 

3 if(!rval)return false,; 

4 if(lval->isBase()&&rval->isBase()) / /都 是 基本 类 型 
5 flag=true,; 

6 else if(!lval->isBase() && !rval->isBase()) / /都 不 是 基本 类 型 


7 flag=rval->getType()==1Lval->getType(); / /只 要 求 类 型 相同 


8 return flag; 








第 4 行 检查 两 个 变量 如 宁都 是 基本 类 型 〈int 或 char) ， 则 认为 类 型 
兼容 ， 我 们 认为 char 和 int 类 型 的 变量 可 以 默认 转换 。 








第 6~7 行 检查 两 个 变量 如 果 痢 不 是 基本 类 型 ， 则 检查 变量 类 型 type 
字段 是 人 否 相 同 ， 如 果 相 同 则 兼容 。 除 此 之 外 的 情况 ， 变 量 的 类 型 不 兼 








2. 双 目 运算 表达 式 


表达 式 运算 中 ， 双 目 运算 表达 式 占 据 大 多 数 ， 比 如 前 面 讨论 的 赋值 
表达 式 就 是 双 目 运算 表达 式 。 其 他 双 目 运算 表达 式 还 有 导 辑 运算 “〈 与 、 
或 》。 关系 运算 《大 十 大 于 转 于 浅 于 小 于 等 于 年 于 不 等 

， 算 术 运 算 〈 加 、 减 、 乘 、 除 、 取 模 ) 表达 式 。 对 双 目 运算 表达 式 
的 翻译 实现 如 下 : 
































1 Var* GenIR::genTwoOp 


“0 Tag opt,Var*rval)t{ 

if(!lval || !rval)return NULL,; 

if(lval->isVoid()||lrval- >isVvoid( ) ){ 
SEMERROR( EXPR_IS_ VOID); 
return NULL; 


~ILIODOA 上 Nm 


} 
if(opt==ASSIGN)return genAssign 


(lval,rval); / /赋值 


8 if(lval->isRef())lval=genAssign(lval); 


9 if(rval->isRef())rval=genAssign(rval); 
10 if(opt==OR)return genor 

(lval,rval); / /或 

11 if(opt==AND)return genAnd 

(lval,rval); // 与 

12 if(opt==EQU)return genEqu 

(lval,rval); / /等 于 

13 if(opt==NEQU)return genNedu 
(lval,rval); / /不 等 于 

14 if(opt==ADD)return genAdd 

(lval,rval); // 加 

15 if(opt==SUB)return genSub 

(lval,rval); // 减 

16 if(!lval->isBase() || !rval->isBase()) 
17 { 

18 SEMERROR( EXPR_NOT_BASE ) ， 

19 return lval; 

20 } 

21 if(opt==GT)return genGt 

(lval,rval); // 大 于 


22 if(opt==GE)return genGe 


/ /处理 左 值 


// 处 理 右 值 


(lval,rval); // 大 于 等 于 


23 if(opt==LT)return genLt 
(lval,rval); / /小 于 
24 if(opt==LE)return genLe 
(lval,rval); // 沙 手 等 玫 
25 if(opt==MUL)return genMul 
(lval,rval); // 乘 
26 if(opt==DIV)return genDiv 
(lval,rval); // 除 
27 if(opt==MOD)return genMod 
(lval,rval); // 取 模 
28 return lval,; 

29 } 





第 3~6 行 处 理 表 达 式 操作 数 为 void 类 型 变量 的 情况 。 


第 7 行 早 独 处 理 赋值 运算 表达 式 ， 从 前 面 讨论 的 genAssign 的 实现 中 
可 以 看 出 ， 当 被 赋值 的 变量 是 指针 运算 结果 时 ， 需 要 使 用 OP_SET 指 令 
实现 代码 翻译 。 





第 8~9 行 处 理 操作 数 为 指针 运算 结果 的 情况 ， 使 用 单 参数 的 


genAssign 函 数 将 指针 运算 结果 取出 。 


第 10~15 行 处 理 非 基 本 类 型 可 以 参与 的 运算 ， 包 括 或 、 与 、 等 于 、 
不 等 于 、 加 和 减 运算 。 第 21~27 行 处 理 只 有 基本 类 型 可 以 参与 的 运算 ， 
包括 大 于 、 大 于 等 于 、 小 于 、 小 于 等 于 、 乘 和 除 运算 。 基 本 类 型 只 能 
int 或 char 类 型 ， 除 此 之 外 的 变量 都 是 非 基 本 类 型 ， 比 如 int* 、char[] 等 。 














在 除了 赋值 运算 表达 式 的 其 他 双 目 运算 表达 陈 中 ， 加 法 运算 和 减法 
运算 表达 式 的 翻译 较为 特殊 。 





1 Var* GenIR: :genAdd 


(Var*]lval,Var*rval) 
{ 


Var*tmp=NULL; 

if(!lval->isBase( )&&rval->isBase() 
tmp=new Var(symtab.getScopePath(),1val); 
rval=genMul 


OU 上 


(rval,Var::getstep 


(lval)); 

7 

8 else if(lval->isBase()&&!rval->isBase()){ 

9 tmp=new Var(symtab.getScopePath(),rval); 
10 lval=genMul 


(lval,Var::getstep 


(rval)); 

11 

12 else if(lval->isBase( )&&rval->isBase()) 

13 tmp=new Var(symtab.getScopePath(),kKw_INT,false); 
14 elsef 

15 SEMERROR( EXPR_NOT_ BASE ) ， 

16 return lval; 

17 } 

18 symtab.addVar (tmp); 

19 symtab.addIinst(new InterInst(OP_ADD 


;tmp, lval,rval)); 
20 return tmp; 





第 4~7 行 处 理 非 基本 类 型 操作 数 加 上 基本 类 型 操作 数 的 情况 。 例 如 
中 针 变 量 intsp， 在 计算 “p+12 时 ， 实 际 的 计算 为 "p+1*sizeof (int) ”， 
此 通过 调用 乘法 运算 的 翻译 函数 genMul 将 rval 修 改 为 实际 累加 的 值 。 


第 8~11 行 处 理 与 中 +1? 相 似 的 情况 “1+p”， 同 样 的 需要 通过 调用 乘法 
运算 翻译 函数 genMul 将 lval 修 改 为 实际 累加 的 值 。 


第 12~13 行 处 理 基 本 类 型 的 操作 数 相 加 的 情况 


第 14~17 行 处 理 两 个 非 基 本 类 型 的 操作 数 相 加 ， 这 种 运算 不 合法 ， 
报告 万 语 吾 义 错误 o 


第 19 行 ， 将 加 法 运算 翻译 为 OP ADD 指令 表达 式 。 


变量 对 象 的 getStep 函 数 用 于 计算 对 变量 加 1 操作 时 的 实际 累加 值 。 





1 Var* Var::getstep 


(Var*v){ 

2 if(v->isBase())return SymTab::one 

/ 

3 else if(v->type==KW_CHAR)return SymTab: :one 
/ 

4 else if(v->type==KW_INT)return SymTab: :four 
/ 

5 else return NULL ， 

6 } 


1 


第 2 行 处 理 基 本 类 型 操作 数 的 加 1 运算 ， 实 际 累 加 值 仍 为 1。 


第 3 行 处 理 char* 或 char[] 类 型 操作 数 的 加 1 运算 ， 实 际 累 加 值 也 是 1。 


第 4 行 处 理 int* 或 int[] 类 型 操作 数 的 加 1 运算 ， 实 际 系 加 值 为 4。 


减法 运算 表达 式 的 翻译 与 加 法 类 似 ， 不 过 限制 更 多 。 





1 Var* GenIR: :genSub 


Var*JlVval,Varxrval){ 
Varx*tmp=NULL 
if(!rval->isBase()) 


( 

2 

3 

4 

5 SEMERROR( EXPR_NOT_BASE ) ， 
6 return lval; 
7 

8 

9 

1 


if(!lval->isBase()){ 
tmp=new Var(symtab.getScopePath(),1val); 
rval=genMul 


© 


(rval,Var::getstep 


(lval)); 

11 

12 else 

13 tmp=new Var(symtab.getScopePath(),Kw_INT,false); 
14 symtab.addVar (tmp); 

15 Symtab .addInst(new InterInst(OP_SU 


B, tmp, lval,rval)); 
16 return tmp; 
17 } 





在 加 法 运算 中 ， 对 于 指针 变量 inttp， 可 以 执行 “p+1” 或 “1+p” 的 操 
作 。 而 减法 运算 中 “1-p” 的 操作 是 非法 的 。 


第 3~7 行 处 理 rval 不 是 基本 类 型 的 语义 错误 


第 8~11 行 处 理 lval 不 是 基本 类 型 的 情况 ， 将 rval 修 正 为 实际 的 球 加 
值 。 


第 12~13 行 处 理 基本 类 型 操作 数 的 减法 运算 。 


第 15 行 将 减法 运算 表达 式 翻 译 为 OP_SUB 指 令 


除了 已 经 讨论 的 赋值 运算 、 加 法 运算 和 减法 运算 表达 式 ， 其 他 的 双 
运算 表达 式 的 翻译 形式 完全 相同 ， 比 如 乘法 运算 表达 式 。 





1 Var* GenIR::genMul 


(Var*]lval,Var*rval)t{ 

2 Var*tmp=new Var(symtab.getScopePath(),Kw_ INT,false); 
3 symtab.addVar (tmp); 

4 Symtab .addInst(new InterInst(OP_MUL 


;tmp, lval,rval)); 
5 return tmp; 
6 } 





对 于 其 他 双 目 运算 表达 式 的 实现 ， 只 是 在 创建 InterInst 对 象 时 传递 
的 操作 符 不 同 。 由 于 自 定 义 语言 中 的 基本 类 型 只 有 int 和 char， 因 此 经 过 





表达 式 运 算 后 ， 如 果 运 算 结果 仍 为 基本 类 型 ， 一 般 我 们 都 会 使 用 int 类 型 
作为 默认 类 型 。 





3. 前 级 单 目 运算 表达 式 


前 级 单 目 运算 表达 式 包括 取 址 ， 指 针 运 算 表达 式 ， 前 级 自 加 、 上 自 减 
表达 式 ， 风 辑 非 运算 和 取 人 负 运 算 表达 式 。 对 单 目 运算 表达 式 的 翻译 实现 





如 下 : 





1 Var* GenIR::genOneOpLeft 


( 
2 
3 
4 
5 
6 
7 


(val); 


(val); 


10 


(val); 
11 
(*p) 
12 
(val); 


13 


(val); 


Tag opt,Var*val)t{ 


if(!val)return NULL; 
if(val->isVoid()){ 
SEMERROR( EXPR_IS_ VOID); 
return NULL; 
if(opt==LEA)return genLea 


// 取 址 


if(opt==MUL)return genPtr 


// 指 针 


if(opt==INC)return genIncL 





// 自 加 











if(opt==DEC)return genDecL 





// 自 减 











if(val->isRef())val=genAssign(val); 


if(opt==NOT)return genNot 


// 非 


if(opt==SUB)return genMinus 


// 取 负 


return val; 


// 处 理 


第 3~6 行 处 理 表 达 式 操作 数 为 void 类 型 变量 的 情况 
第 7~8 行 处 理 取 址 和 指针 运算 表达 式 ， 前 面 已 经 讨论 过 取 址 和 指针 
运算 表达 式 的 翻译 。 
第 9~10 行 处 理 前 绥 自 加 和 自 减 运算 表达 式 。 
第 12~13 行 处 理 多 辑 非 运算 和 取 负 运算 表达 式 ， 这 两 种 表达 式 运 算 


的 操作 数 古 右 值 ， 因 此 第 11 行 使 用 单 参数 的 genAssign 函 数 将 可 能 的 指 
针 运算 结果 取出 。 


前 绥 目 加 和 目 减 运算 表达 式 的 操作 数 是 左 值 ， 因 此 可 能 是 指针 运算 
的 结果 。 前 级 上 自 加 运算 表达 式 的 翻译 如 下 : 





1 Var* GenIR: :genIncL 


(Var*val)t{ 
2 if(!val->getLeft()){ 
3 SEMERROR( EXPR_NOT_LEFT_VAL ); 
4 return val; 
5 } 
6 if(val->isRef()){ //++*p 
7 Var* t1=genAssign 
(val); //t1=*p 
8 Var* t2=genAdd 
(Ee Var::getstep(val)); //t2=t1+1 
genAssign 
(val, t2); //*p=t2 
10 } 
11 else 
12 Symtab .addInst(new InterInst(OP_ADD 
F 
13 val,val,Var::getstep(val))); //++val 


14 return val; 





第 2~5 行 产生 操作 数 不 是 左 值 的 语义 错误 。 


第 6~10 行 处 理 操 作 数 是 指针 运算 结果 的 情况 。 例 如 指针 变量 int*p， 
对 于 表达 式 “++*p” 的 中 间 代 码 翻译 结果 应 该 如 下 : 





OP_GET tl1 p //t1=*p 
OP_ADD t2 ti 1 //t2=t1+1 
OP_SET t2 p //*p=t2 





即 首 先 使 用 处 理 指 针 运 算 结 果 val， 使 用 单 操作 数 genAssign 将 值 取 
出 到 tl1。 然 后 使 用 genAdd 对 t1 进 行 加 1 操作 ， 结 果 保 存 到 t2。 最 后 使 用 双 
参数 的 genAssign 函 数 将 t2 赋 值 到 指针 运算 结果 val。 


第 11~13 行 处 理 一 般 变 量 的 加 1 操作 ， 其 中 运算 结果 和 第 一 个 操作 数 
都 是 val， 第 二 个 操作 数 是 通过 getStep 计 算 的 val 实 际 累 加 值 。 





前 级 自 减 运算 表达 式 的 翻译 和 前 级 自 加 运算 表达 式 相 似 ， 只 需要 将 
第 8 行 的 genAdd 蔡 换 为 geanSub， 将 第 12 行 的 操作 符 蔡 换 为 OP_SUB。 

逻辑 非 运 算 和 取 负 运算 表达 式 的 翻译 比较 简单 ， 不 过 取 负 运算 操作 
数 限 定 为 基本 类 型 。 








1 Var* GenIR::genMinus 


(Var*val){ 

2 if(!val->isBase())t{ 

3 SEMERROR( EXPR_NOT_BASE ) ， 
4 return val; 

5 } 


6 Var*tmp=new Var(symtab.getScopePath(),Kw_INT, false); 
7 symtab.addVar (tmp); 
8 Symtab .addInst(new InterInst(OP_NEG 


,tmp,Val)) 7 
9 return tmp; 
10 } 





第 2~5 行 处 理 操作 数 不 是 基本 类 型 的 语义 错误 。 





第 8 行使 用 操作 符 OP_NEG 产 生 取 负 运 算 表 达 式 中 间 指 令 。 





4. 后 级 单 目 运算 表达 式 


我 们 实现 的 后 级 曲目 运算 表达 式 只 有 两 种 ， 后 级 自 加 和 后 级 目 减 运 
算 表达 式 ， 因 此 实现 比较 简单 。 





1 Var* GenIR::genOneOpRight 


























(Var*val,Tag opt){ 

2 if(!val)return NULL; 

3 if(val->isVoid()){ 

4 SEMERROR (EXPR_IS_ VOID); 
5 return NULL; 

6 } 

7 if(!val->getLeft()){ 

8 SEMERROR( EXPR_NOT_LEFT_VAL ); 
9 return val; 

10 } 

11 if(opt==INC)return genIncR 
(val); // 右 自 加 语句 

12 if(opt==DEC)return genDecR 
(val); // 右 自 减 语句 

13 return val; 

14 } 


二 一 


第 3~6 行 处 理 操作 数 为 void 变量 的 情况 
第 7~10 行 处 理 操作 数 不 是 左 值 的 情况 
第 11~12 行 进行 后 级 自 加 、 自 减 运算 表达 式 的 翻译 。 


后 级 上 自 加 、 自 减 运算 表达 式 翻 译 也 需要 指针 运算 的 结果 ， 后 级 上 自 加 
运算 表达 式 的 翻译 如 下 : 





1 Var* GenIR: :genIncR 


(Var*val)t{ 

2 Var*tmp=genAssign 

(val); / /复制 ， 

tmp=val 

3 if(val->isRef())t{ /A/(*p )++ 情 况 


=> t1=*p t2=t1+1 *p=t2 


4 Var* t2=genAdd 

(tmp,Var::getstep(val)); //t2=tmp+1 

5 genAssign 

(val, t2); //*p=t2 
6 } 

7 else 

8 Symtab .addInst(new InterInst(OP_ADD 


9 ,Val,val,Var: :getstep(val))); /人 
10 return tmp; 
11 } 





后 级 上 自 加 运算 表达 式 翻 译 与 前 级 自 加 运算 表达 式 的 翻译 非常 相似， 
只 不 过 第 2 行 对 单 参 数 genAssign 函 数 的 调用 是 无 条 件 的 ， 即 必须 做 一 次 





将 val 变 量 的 值 复 制 到 tmp 中 ， 并 且 返 回 值 是 tmp 而 非 val。 这 正 是 为 了 满 
足 后 缀 上 自 加 运算 是 先 返回 操作 数 结 果 ， 再 进行 自 加 运算 的 特性 。 





后 级 自 减 运算 表达 式 翻译 与 后 级 自 加 运算 表达 式 翻译 的 形式 相同 ， 
只 需要 将 第 4 行 的 genAdd 蔡 换 为 genSub， 将 第 8 行 的 操作 符 OP_ADD 替 换 
为 OP SUB。 





5. 数 组 索引 运算 表达 式 


对 于 数组 索引 运算 表达 式 ， 我 们 将 之 转化 为 指针 运算 处 理 。 例 如 数 
组 索引 运算 表达 陈 “afij”， 转 化 为 指针 运算 形式 为 "* (ati) ”。 即 首先 执 
行 数组 名 a 与 索引 i 的 加 法 操作 ， 结 果 保 存 到 tmp。 然 后 执行 对 tmp 的 指针 
运算 操作 。 实 现代 码 如 下 : 





1 Var* GenIR::genArray 


(Var*array,Var*index){ 
if(!array || !index)return NULL; 
if(array->isVoid()||index- >isVoid( )){ 
SEMERROR( EXPR_IS_ VOID); 
return NULL ， 


>isBase() || Se >isBase()){ 
SEMERROR(ARR_TYPE_ERR ) ， 
return index 


PPROOONOAOND 


Po 


return genPtr 
(genAdd 


(array, index )); 
12 } 











第 3~6 行 处 理 数组 变量 和 索引 变量 为 void 类 型 的 语义 错误 。 








第 7~10 行 表示 数组 变量 为 基本 类 型 ， 或 索引 变量 为 非 基 本 类 型 时 ， 


报告 语义 错误 。 


第 11 行 产生 数组 索引 运算 表达 式 的 中 间 代 码 ， 即 首先 调用 genAdd 函 
数 执行 数组 与 索引 的 加 法 ， 然 后 调用 genPtr 函 数 进行 指针 运算 操作 。 


6. 函 数 调用 表达 式 


函数 调用 表达 式 的 翻译 分 为 两 个 部 分 : 传递 参数 和 函数 调用 。 


在 设计 中 间 代 码 时 ， 操 作 符 OP_ARG 表 示 实 际 参数 入 栈 操作 。 对 每 
个 实际 参数 ， 我 们 使 用 genPara 函 数 生 成 入 栈 的 中 间 代 码 指令 。 





1 void GenIR: :genPara 


(Var*arg){ 

2 if(arg->isRef())arg=genAssign(arg); 

3 InterInst*argInst=new InterInst(OP_ARG 
,arg); 

4 symtab.addIinst(argInst); 

5 } 





第 2 行 处 理 参 数 变量 为 指针 运算 结果 的 情况 。 
第 3 行 生 成 DODP_ARG 中 间 代 码 指令 ， 用 于 将 arg 压 栈 。 


函数 调用 表达 式 翻 译 的 实现 代码 如 下 : 





1 Var* GenIR::genCall 


(Fun*function,vector<Var*>& argSs){ 
2 if(!function)return NULL ， 


3 for(int i=args.size()-1;i>=0;i--)tf{ / /逆向 传递 实际 参数 
4 genPara 

args 上 ) ; 

6 if(function->getType( )==KW_VOID){ 

7 Symtab .addInst(new InterInst(OP_PROC 





;function)); 
8 











return Var::getVoid(); // 返 区 
VOid 特 丈 变量 
9 } 
10 elsef 
11 Var*ret=new Var(Symtab .getScopePath() 
12 ,function->getType( ),false); 
13 Symtab .addInst(new InterInst(OP_CALL 
;function, ret)); 
14 symtab.addVar (ret); 
15 return ret; 
16 } 
17 } 





第 3~5 行 按照 C 语 言 参 数 从 石 向 左 的 入 栈 规则 生成 参数 入 栈 指令 。 


第 6~9 行 处 理 无 返回 值 (void) 函数 调用 ， 生 成 OP_PROC 函 数 调用 
指令 ， 并 返回 void 变量 标识 函数 的 返回 类 型 。 








第 10~16 行 处 理 有 返回 值 函 数 调用 ， 生 成 OP_CALL 函 数 调用 指令 ， 
并 返回 函数 调用 结果 变量 ret。 


3.5.5 复合 语句 与 break、continue 语 人 句 翻 译 





在 局 级 语言 程序 中 ， 如 果 说 表达 式 是 程序 计算 的 抽象 ， 那 么 语句 便 
是 程序 控制 的 抽象 ， 因 为 程序 的 控制 逻辑 通过 语句 来 表达 。 我 们 将 语句 
分 为 三 类 : 分 文 语句 、 循 环 语句 和 break、continue 语 句 。 站 在 计算 机 机 
需 语 言 角度 ， 程 序 的 执行 无 外 乎 两 种 形式 : 顺序 和 跳 转 。 反 映 在 程序 计 
数 吉 pc 上 便 是 取 下 一 条 指令 执行 ， 或 者 跳 转 到 目标 地 址 取 指 执行 。 一 般 
的 ， 不 考虑 使 用 goto 语 句 的 情况 下 ， 如 果 古 顺 着 程序 执行 流 的 方 回 跳 
转 ， 则 表现 为 高 级 语言 的 分 文 语句 ， 如 果 逆 看 程序 执行 流 的 方向 跳 转 ， 
则 表现 为 高 级 语言 的 循环 语句 。 因 此 ， 对 语句 的 代码 生成 需要 明确 跳 转 
站 令 和 目标 标签 的 位 置 。 





1.if-else、switch-case 分 支 语 句 





高 级 语言 中 最 常用 的 分 支 语句 应 该 是 if-else 语 句 ， 其 基本 形式 为 : 


If(cond ){ 

//do true 
}elsef 

//do false 


将 其 翻译 为 中 间 代 码 形式 为 : 





//do cond 
OP_JF cond _else 


//if(!cond)goto _else 
//do true 
OP_JMP _exit 


//goto _exit_else: 


//do false exit: 





如 果 if-else 语 句 中 只 包含 ff 部 分 ， 而 没有 else 部 分 : 





if(cond){ 
//do true 





则 翻译 为 中 间 代 码 形式 为 : 





//do cond 
OP_JF cond _else 


//if(!cond)goto _else 
//do true_else: 





注释 的 do cond 部 分 处 理 条 件 表 达 式 ，do true 和 do false 部 分 为 if-else 
分 文 语 句 的 内 部 实现 代码 ， 将 其 抽出 剩 下 的 便 是 让 else 分 文 语句 的 实现 
框架 ， 包 括 四 个 部 分 : 


1) if 首 部 : 产生 日 标 标 签 为 _else 的 OP_JF 指 令 。 


2) else 首 部 : 产生 目标 标签 为 _exit 的 无 条 件 跳 转 指 令 OP_JMP 和 标 


签 else。 


3) else 尾 部 : 产生 _exit 标 签 。 


4) if 尾 部 : 当 不 存在 else 语 句 时 ， 产 生 else 标 签 。 


对 直 -else 分 支 语句 的 代码 生成 的 实现 如 下 : 





1 void Parser::ifstat 


(){ 

2 symtab.enter(); 

3 InterInst* else,* exit; / /标签 
4 match(Kw_IF); 

5 if(!match(LPAREN)) 

6 recovery (EXPR_FIRST, LPAREN_LOST, LPAREN_WRONG ) ; 
7 Var*cond=expr(); 

8 ir.genIfHead 

(cond,_else); //if 头 部 

9 if(!match(RPAREN)) 

10 recovery(F(LBRACE), RPAREN_LOST, RPAREN_ WRONG); 
11 block( ); 

12 symtab.leave(); 

13 if(F(KW_ELSE) ){ /7 
else 

14 ir.genElseHead 

(_else,_ exit); /V/elSse 头 部 

15 elsestat(); 

16 ir.genElseTail 

(_exit); //elSse 尾 部 

17 } 

18 elsef 


else 
19 ir.genIfTail 


(_else); 

20 } 

21 } 

22 void GenIR: :genIfHead 


(Var*cond, InterInst*& else){ 





23 _else=new InterInst(); // 产 生 
eJ Se 标签 

24 If(cond ){ 

25 if(cond->isRef())cond=genAssign(cond); 

26 Symtab .addInst(new InterInst(OP_JF 


,;_else,cond)); 

27 

28 } 

29 void GenIR: :genIfTail 


(InterInst*& _else){ 
30 symtab.addIinst(_else 


); 
31 } 
32 void GenIR: :genElseHead 


(InterInst* _else,InterInst*& exit){ 





33 _exit=new InterInst(); // 产 生 
eXit 标 签 

34 symtab.addIinst(new InterInst(OP_JMP 

,_exit)); 

35 symtab.addInst(_else 

); 

36 } 


37 void GenIR: :genElseTail 


(InterInst*& _exit){ 
38 symtab.addIinst(_exit 


); 
39 } 





代码 第 1~22 行 为 ifstat 递 归 下 降 子 程序 的 实现 代码 ， 第 23~39 行 为 if 首 
部 、else 首 部 、else 尾 部 、 让 尾部 的 代码 生成 实现 。 





第 8 行 在 条 件 表达 式 计算 完毕 后 ， 调 用 genIfHead 处 理 if 首 部 ， 在 第 
26 行 生成 目标 标签 为 _else 的 OP_JF 指 令 


第 18~20 行 在 不 存在 else 时 ， 调 用 genIfTail 处 理 if 尾 部 ， 在 第 30 行 生 
成 _else 标 签 


第 14 行 调用 genElseHead 处 理 else 首 部 ， 第 34~35 行 生成 OP_JMP 指 令 
目标 标签 为 _exit， 以 及 _else 标 签 


第 16 行 调用 genElseTail 处 理 else 尾 部 ， 第 38 行 生成 _exit 标 签 


标签 对 象 的 创建 是 使 用 无 参 构造 函数 Intermst， 即 调用 genLb 生 成 一 
个 唯一 的 标签 名 称 ， 将 之 保存 在 InterInst 的 label 变 量 内 。 





1 string GenIR::genLb 


lbNum++，; 

string 1b="@L"; 
stringstream ss; 
ss<<lbNum; 

return lb+ss.str(); 


NOPON ~ 





函数 genLb 的 实现 很 饮 单 ， 残 是 使 用 字符 串 “@L” 后 紧 跟 一 个 全 局 唯 
一 的 编号 IbNum。 


switch-case 分 文 语句 是 为 一 种 常见 的 分 文 语句 ， 其 基本 形式 为 : 





Switch(cond ){ 


case 1b_1: //do |] 
case 1b_2: //do |] 
default: //do del 





将 其 翻译 为 中 间 代 人 码 形式 为 : 





//do cond 
OP_JNE exit 1 lb 1 cond 


//if(1lb_1!=cond)goto exit 1 
//do 1lb_ i1exit 1: 


OP_JNE exit 2 lb 2 cond //if(1b_2!=cond)goto 
//do 1b_2 
exit_2: 


//do default exit: 





其 中 ， 标 签 _exit 是 switch-case 的 出 口 标 签 。 实 际 case 语 句 内 不 会 产 
生 到 _exit 的 跳 转 ， 那 么 最 终 的 default 语 句 总 是 无 条 件 执行 。 因 此 ， 常 使 
用 break 语 句 强 制 退出 一 个 case 语 句 ， 即 生成 到 _exit 标 签 的 跳 转 ， 比 如 : 





Switch(cond ){ 


case 1b_1: //do |] 
break; 

case 1b_2: //do |] 
break; 

default: //do del 





将 其 翻译 为 中 间 代 码 形式 为 : 


一 一 一 一 一 一 一 


//do cond 
OP_JNE exit 1 lb 1 condition 


//if(1lb_1!=cond)goto exit 1 
//do lb _1 


OP_JMP _exit //goto _ex:i 
OP_JNE exit 2 lb 2 condition //if(1b_2!=cond)goto e) 
//do 1b_2 

OP_JMP _exit //goto _ex:i 


//do default exit: 





这 样 每 一 个 case 语 句 便 可 以 独立 执行 了 ， 当 所 有 case 语 句 都 无 法 执 
行 时 ， 便 执行 defaulti 滞 句 ， 这 与 C 语 言 的 switch-case 语 句 的 语义 一 致 。 同 
样 的 ， 我 们 将 switch-case 语 名 框架 分 为 四 个 部 分 : 


1) switch 首 部 : 本 里 不 生成 代码 ， 但 需要 创建 出 口 标 签 _exit 指 令 对 
象 ， 并 保存 _exit， 为 其 内 部 可 能 出 现 的 break 语 句 的 代码 生成 提供 跳 转 


标签 信息 。 


2) case 首 部 : 生成 跳 转 到 _case_exit 的 条 件 跳 转 指令 OP JNE， 条 件 
比较 操作 数 是 case 的 常量 标签 lb_* 和 cond 表 达 式 的 结果 。 


3) case 尾 部 : 生成 case 的 退出 标签 _case_exit。 


4) switch 尾 部 :生成 Switch 语句 的 退出 标签 exit。 


switch-case 分 支 语 句 的 代码 生成 的 实现 如 下 : 





1 void Parser::switchstat 


(){ 

2 Symtab .enter() 

3 InterIinst* exit; // 
4 ir.genSwitchHead 

(_exit); //Switch 类 部 
5 match(KW_SWITCH ) ， 

6 if(!match(LPAREN) ) 

7 recovery(EXPR_FIRST, LPAREN_LOST, LPAREN_WRONG ) ; 

8 Var*cond=expr(); 

9 if(cond->isRef())cond=ir.genAssign(cond); 

10 if(!match (RPAREN)) 

11 recovery(F(LBRACE), RPAREN_LOST, RPAREN_ WRONG); 

12 if(!match(LBRACE)) 

13 recovery(F(KW_ CASE)_(KwW_DEFAULT), 

14 LBRACE_LOST, LBRACE_WRONG )，; 

15 casestat(cond); 

16 if(!match (RBRACE)) 

17 recovery (TYPE_FIRST| |STATEMENT_FIRST, 

18 RBRACE_LOST, RBRACE_WRONG ) ; 

19 ir.genSwitchTail 

(_exit); //SWitch 尾 部 
20 symtab.leave(); 

21 } 


22 void Parser::casestat 


(Var*cond){ 

23 if(match(KW_CASE)){ 

24 InterInst*_case exit; // 标 : 
25 Var*]lb=caselabel(); 

26 ir.genCaseHead 

(cond,1b,_case_ exit); /VCcaSe 头 部 

27 if(!match(COLON)) 

28 recovery(TYPE_FIRST| |STATEMENT_FIRST, 

29 COLON_LOST, COLON_WRONG ) ; 


30 symtab.enter(); 


31 Subprogram( ); 
32 symtab.leave( ); 
33 ir.genCaseTail 





(_case_ exit); //CaSe 尾 部 

34 casestat (cond); 

35 } 

36 else if(match(KwW_DEFAULT))E{ //del 
37 if(!match(COLON)) 

38 recovery (TYPE_FIRST | |STATEMENT_FIRST, 

39 COLON_LOST, COLON_WRONG ) ; 

40 Symtab .enter() 

41 Subprogram( ); 

42 symtab.leave( ); 

43 

44 } 

45 void GenIR: :genSwitchHead 

(InterInst*& exit){ 

46 _exit=new InterInst(); //i 
eXit 标 签 

47 push(NULL,_exit),; / 
continue 

48 } 

49 void GenIR::genSwitchTail 

(InterInst* exit){ 

50 symtab.addIinst(_exit 

i // 添 加 

eXit 标 签 

51 pop(); 

52 } 

53 void GenIR: :genCaseHead 

(Var*cond,Var*1b, 

54 InterInst*& _case exit)f{ 

55 _Ccase exit=new InterIinst(); // 产 生 


CaSe 的 


eXIt 标 答 


56 if(lb)symtab.addInst(new InterInst(OP_JNE 
时 。 

57 _Case_exit,cond,1Lb) )， 

58 } 


59 void GenIR: :genCaseTail 


(InterInst* _case exit)f{ 
60 symtab.addInst(_case exit 


); / /添加 


CaSe 的 


eXILt 标 答 


61 } 





第 1~21 行 为 switchstat 递 归 下 降 子 程序 的 实现 ， 第 22~44 行 为 casestat 
递归 下 降 子 程序 的 实现 。 第 45~61 行 实现 了 Switch 首部、case 首 部 、case 
尾部 、switch 尾 部 的 代码 生成 。 


第 4 行 调 用 genSwitchHead 处 理 switch 语 句 首 部 。 第 46~47 行 创建 _exit 
标签 指令 对 象 并 使 用 push 孙 数 保存 。push 与 pop 函 数 与 break、continue 语 
句 的 翻译 相关 ， 后 面 会 详细 描述 。 


第 19 行 调用 genSwitchTail 处 理 switch 语 句 尾 部 ， 第 50 行 生成 _exit 标 


第 26 行 调用 genCaseHead 人 处理 case 语 句 首 部 ， 第 56~57 行 生成 目标 标 
签 为 _case_exit 的 OP_JNE 指 令 。 


第 33 行 调用 genCaseTail 处 理 case 语 名 尾部， 第 60 行 添加 _case_exit 标 


2.while、do-while、for 循 环 语句 


while 循 环 语句 的 基本 形式 为 : 





while(cond){ 
//do loop 
} 





将 其 翻译 为 中 间 代 码 形式 为 : 





_while: 


//do cond 
OP_JF cond _exit 


//if(!cond)goto _exit 
//do loop 
OP_JMP _while 


//goto _while exit: 





while 循 环 语句 的 实现 框架 包括 三 个 部 分 。 


1) while 首 部 : 创建 循环 入 口 标签 -while 和 循环 出 口 标签 _exit 的 指 
邻 对象 并 保存 ， 为 break 和 continue 语 句 代 码 生 成 提供 跳 转 标签 信息 。 


2) while 条 件 : 处 理 循环 条 件 ， 尤 其 是 
为 _exit 的 OP_JF 指 


是 空 循环 条 件 。 生 成 目标 标签 


令 。 循 环 条 件 表 达 式 的 计算 必须 在 循环 内 部 处 理 ， 即 


在 标签 _while 之 后 ， 因 为 每 次 循环 需要 重新 计算 循环 表达 式 的 值 。 


3) while 尾 部 : 产生 目标 标签 为 _ while 的 OP_JMP 指 令 ， 并 添加 标签 


_ exit。 


对 while 循 环 语句 的 代码 生成 的 实现 如 下 : 





1 void Parser::whilestat 


(){ 

2 symtab.enter(); 

3 InterInst* while,* exit,; 
4 ir.genwhileHead 


(_while,_exit); 


// 标 签 


//While 循 环 头 部 


5 match(KW_WHILE); 

6 if(!match(LPAREN)) 

7 recovery (EXPR_FIRST| |F(RPAREN), 

8 LPAREN_LOST, LPAREN_ WRONG ) ， 

9 Var*cond=altexpr(); 

10 ir.genwhileCond 

(cond,_exit); //While 条 件 
11 if(!match(RPAREN)) 

12 recovery(F(LBRACE), RPAREN_LOST, RPAREN_ WRONG); 
13 block( ) ， 

14 ir.genwhileTail 

(_while, exit); //While 尾 部 


15 symtab.1leave( ); 
16 } 
17 void GenIR: :genwhileHead 


(InterInst*& _while, 








18 InterInst*& _exit){ 

19 _while=new InterInst(); // 产 生 
While 标 签 

20 Symtab .addInst(_while 

) ; // 添 加 

wWh 工 上 e 标 答 

21 _exit=new InterInst(); // 产 生 
eXit 标 签 

22 push(_while,_exit); / /进入 
while 

23 } 


24 void GenIR: :genwhileCond 


(Var*cond, InterInst* exit){ 


25 if(cond)t{ 

26 if(cond->isVoid())cond=Var::getTrue(); / /处理 空 表达 式 
27 else if(cond->isRef())cond=genAssign(cond); 

28 Symtab .addInst(new InterInst(OP_JF 


,;_exit,cond)); 

29 

30 } 

31 void GenIR: :genwhileTail 


(InterInst*& _while, 


32 InterInst*& _exit){ 

33 symtab.addIinst(new InterInst(OP_JMP 
,;_while)); 

34 symtab.addIinst(_exit 

); // 添 加 


eXIt 标 答 


35 pop(); 





代码 第 1~16 行 为 whilestat 递 归 下 降 子 程序 的 实现 代码 ， 第 11~36 行 为 
while 首 部 、while 条 件 、while 尾 部 的 代码 生成 实现 。 


第 4 行 调用 genWhileHead 处 理 while 循 环 首部 。 第 19~21 创 建 _while 和 
_exit 标 签 指令 对 象 。 并 添加 _while 标 签 。 


第 10 行 在 while 循 环 表达 式 处 理 完 毕 后 ， 调 用 genWhileCond 处 理 循 
环 条 件 。 第 26 行 当 cond 为 void 变量 则 调用 getTrue， 返 回 第 量 1。 第 28 行 
根据 循环 条 件 生成 目标 标签 为 _exit 的 OP_JF 指 令 。 





第 14 行 调用 genWhileTail 处 理 while 循 环 尾部 。 第 33~34 行 生成 


OP_JMP 指 令 ， 添 加 _exit 标 签 。 


do-while 循 环 语句 的 基本 形式 为 : 





dof 
//do loop 
}while(cond); 





将 其 翻译 为 中 间 代 码 形式 为 : 





//do loop 
//do cond 
OP_JF cond _do 


//if(cond)goto _do exit: 





do-while 循 环 语句 的 实现 框架 包括 两 个 部 分 。 


1) do-while 首 部 : 创建 循环 入 口 标签 _ do 和 循环 出 口 标签 _exit 的 指 
令 对 象 ， 并 保存 ， 为 break 和 continue 语 句 代 码 生 成 提供 条 件 标签 信息 ， 
并 添加 _do 标 签 。 


2) do-while 尾 部 : 处 理 循环 条 件 ， 尤 其 是 空 循环 条 件 。 产 生 目 标 标 
签 为 do 的 OP_JT 指 令 ， 并 添加 标签 _ exit。 循环 条 件 表达 式 的 计算 必须 
在 循环 内 部 处 理 ， 因 为 每 次 循环 需要 重新 计算 循环 表达 式 的 值 。 


对 do-while 循 环 语句 的 代码 生成 的 实现 如 下 : 





1 void Parser::dowhilestat 


symtab.enter(); 
InterInst* _do,* _exit; / /标签 


c 六 一 


4 ir.genDowhileHead 


(_do,_exit); //do-while 头 部 


match(Kw_DO); 
block( ); 
if(!match(Kw_WHILE)) 
recovery(F(LPAREN),WHILE_LOST,WHILE_ WRONG); 
if(!match(LPAREN)) 
recovery (EXPR_FIRST| |F(RPAREN), 


POONAOV 


© 


11 LPAREN_LOST, LPAREN_ WRONG ) ; 


12 symtab.1leave( ); 

13 Var*cond=altexpr(); 

14 if(!match (RPAREN)) 

15 recovery(F(SEMICON),RPAREN_LOST, RPAREN_WRONG ) ; 
16 if(!match(SEMICON) ) 

17 recovery(TYPE_FIRST| | STATEMENT_FIRST| |F(RBRACE), 
18 SEMICON_LOST, SEMICON_WRONG ) ; 

19 ir.genDowhileTail 

(cond,_do,_exit); //do-while 尾 部 

20 } 


21 void GenIR: :genDowhileHead 


(InterInst*& _do, 








22 InterInst*& _exit){ 

23 _do=new InterIinst(); // 产 生 

do 标签 

24 _exit=new InterInst(); // 产 生 
eXit 标 签 

25 Symtab .addInst(_do 

); 

26 push(_do,_exit); // 进 入 
do-while 

27 } 


28 void GenIR: :genDowhileTail 


(Var*cond,InterIinst* _do, 


29 InterInst* _exit){ 

30 If(cond ){ 

31 if(cond->isVoid())cond=Var::getTrue(); 

32 else if(cond->isRef())cond=genAssign(cond); 
33 Symtab .addInst(new InterInst(OP_JT 


) do,cond) ) ， 


34 

35 Symtab .addInst(_eXxit 
); 

36 pop(); 

37 } 


代码 第 1~27 行 为 dowhilestat 递 归 下 降 子 程序 的 实现 代码 ， 第 28~37 行 
为 do-while 首 部 、do-while 尾 部 的 代码 生成 实现 。 


第 4 行 调用 genDoWhileHead 处 理 do-while 循 环 首部 。 第 23~25 行 创建 
_do 和 _exit 标 俭 指令 对 象 ， 并 使 用 push 记 录 。 添 加 _do 标 签 。 


第 19 行 在 do-while 循 环 表达 式 处 理 完毕 后 ， 调 用 genDoWhileTail 处 
理 循环 尾部 。 第 31 行 当 cond 为 void 变量 则 调用 getTrue 返 回 第 量 1， 第 33 
行 根据 循环 条 件 生成 目标 标签 为 _do 的 OP_JT 指 令 。 第 35 行 添加 循环 出 


口 标签 _exit。 





for 循 环 的 代码 翻译 比 前 两 者 复杂 ，for 循 环 语句 的 基本 形式 为 : 





for(init;cond;step)t{ 


} 


//do loop 





其 中 init 为 初始 化 语句 部 分 ，cond 为 循环 条 件 语句 ，step 为 循环 因子 
控制 语句 。 将 其 翻译 为 中 间 代 码 形式 为 : 





//do init 
for 


J/do cond 
OP_JF cond _exit //if(!cond)goto _exit 


//do loop 
//do step 


OP_JMP _for //goto _for 
_exit: 


| 


for 循 环 的 init 语 句 仅 执 行 一 次 ， 因 此 在 循环 体外 即 _for 标 和 俭 前 计算 。 
而 cond 和 step 必 须 在 循环 体内 计算 ， 因 此 在 _for 标 签 后 。 


虽然 上 述 的 for 循 环 翻 译 方式 是 最 佳 的 ， 其 中 对 do loop 的 处 理 在 do 
step 之 前 。 但 实际 扫描 源 代 码 的 顺序 是 step 在 loop 之 前 ， 如 宁 按 照 边 扫描 
边 生 成 代码 的 要 求 ， 是 无 法 生成 上 述 中 间 代 码 的 。 当 然 ， 我 们 可 以 选择 
先生 成 step 的 代码 并 缓存 ， 等 1oop 代 码 生成 后 将 缓存 的 代码 追加 到 loop 之 
后 。 不 过 ， 我 们 选择 了 “偷懒 * 的 翻译 方式 ， 这 样 做 在 一 定 程度 上 降低 了 
for 循 环 的 代码 性 能 。 











//do init_for: 


//do cond 
OP_JF _exit cond 


OP_JMP _block 


_step: 


//do step 
OP_JMP _for 


_block: 


//do loop 
OP_JMP _step 


_exit: 


for 循 环 语句 的 实现 框架 包括 四 个 部 分 


1) for 首 部 : 创建 循环 入 口 标签 for 和 循环 出 口 标签 exit 指令 对 象 
并 保存 ， 为 break 和 continue 语 句 代码 生成 提供 条 件 标 签 信息 并 添加 标签 


_for。 





2) for 条 件 首 部 : 处 理 循环 条 件 ， 尤 其 是 空 循 环 条 件 。 创 建 循环 体 
入 口 标签 block、 循 环 因子 控制 语句 入 口 标签 _step 指 令 对 象 。 生 成 目标 
标 俭 为 _exit 的 OP_JF 指 令 。 生 成 目标 标签 为 block 的 OP_JMP 指 令 以 跳 转 
到 循环 体 。 添 加 循环 控制 语句 入 口 标签 _step。 


3) for 条 件 尾 部 : 处 理 完 step 语 句 后 ， 添 加 目标 标签 为 _for 的 
OP_JMP 指 令 以 跳 转 到 循环 开始 位 置 。 添 加 循环 体 入 口 标签 _block。 


4) for 尾 部 : 产生 目标 标签 为 _step 的 OP_JMP 指 令 ， 并 添加 标签 


_eXit。 


对 for 循 环 语句 的 代码 生成 的 实现 如 下 : 





1 void Parser: :forstat 


— 
~ 


symtab.enter(); 
InterInst *_ for,* exit,*_step,*_block; 
match(Kw_FOR); 
if(!match(LPAREN)) 
recovery (TYPE_FIRST | |EXPR_ el |F(SEMICON), 
LPAREN_LOST, LPAREN_ WRONG ) ， 





forinit(); 
ir.genForHead 


‘OO0NORON 


(_for,_exit); 


10 Var*cond=altexpr(); 
11 ir.genForCondBegin 


(cond,_step,_block,_exit); 





12 if(!match(SEMICON)) 

13 recovery(EXPR_FIRST, SEMICON_LOST, SEMICON_WRONG ) ， 
14 altexpr(); 

15 if(!match (RPAREN)) 

16 recovery(F(LBRACE), RPAREN_LOST, RPAREN_ WRONG); 

17 ir.genForCondEnd 


(_for,_block); 
18 block( ); 
19 ir.genForTail 


(_step,_exit); 

20 symtab.leave( ); 
21 } 

22 void GenIR: :genForHead 


(InterInst*& _for,InterIinst*& _exit){ 


23 _for=new InterInSst()， 
24 _exit=new InterInst(); 
25 Symtab .addInst(_for 

) 

26 } 


27 void GenIR: :genForCondBegin 


(Var*cond, InterInst*& _step, 


28 InterInst*& _block,InterInst* _exit){ 

29 _block=new InterInst(); 

30 _Step=new InterInst() ， 

31 If(cond ){ 

32 If(cond->isVoid())cond=Var::getTrue() ， 

33 else if(cond->isRef())cond=genAssign(cond); 
34 Symtab .addInst(new InterInst(OP_JF 


,;_exit,cond)); 


35 Symtab .addInst(new InterInst(OP_JMP 
,;_block)); 

36 

37 Symtab .addInst(_step 

); | 

38 push(_step,_exit); 

39 } 


40 void GenIR: :genForCondEnd 


(InterInst* _for,InterIinst* _block){ 
41 symtab.addIinst(new InterInst(OP_JMP 


,—for)); 


42 symtab.addIinst(_block 


); 
43 } 
44 void GenIR: :genForTail 


(InterInst*& _step,InterIinst*& exit)f{ 


45 Symtab .addInst(new InterInst(OP_JMP 
,step)); 

46 symtab.addIinst(_exit 

); 

47 pop(); 

48 } 





代码 第 1~21 行 为 forstat 递 归 下 降 子 程序 的 实现 代码 ， 第 22~48 行 为 
for 首 部 、for 条 件 首 部 、for 条 件 尾 部 、for 尾 部 的 代码 生成 实现 。 


第 9 行 调用 genForHead 处 理 for 循 环 首部 。 第 23~25 行 创建 循环 入 口 标 
签 _ for 和 循环 出 口 标签 _exit 指 令 对 象 并 保存 ， 并 添加 标签 _for。 


第 11 行 在 for 循 环 表达 式 处 理 完 毕 后 ， 调 用 genForCondBegin 处 理 循 
环 条 件 首部 。 第 32 行 当 cond 为 void 变量 则 调用 getTrue， 返 回 第 量 1。 第 
34~35 行 根据 循环 条 件 生成 目标 标签 为 _exit 的 OP_JF 指 令 ， 以 及 目标 标 
签 为 _ block 的 OP_JMP 指 令 。 





第 17 行 调用 genForCondEnd 处 理 循 环 条 件 尾部 。 第 41~42 行 生成 目标 
标签 为 _for 的 OP_JMP 指 令 ， 并 添加 循环 体 入 口 标签 _block。 


第 19 行 调用 genForTail 处 理 for 循 环 尾部 ， 第 45~46 行 生成 目标 标签 为 
_step 的 OP_JMP 指 令 ， 并 添加 标签 _exit。 


3.break、 continue 语 人 句 


在 C 语 言语 法 中 ，break 语 句 用 于 中 断 循 环 语句 或 者 case 语 句 ， 而 
continue 语 句 用 于 中 断 本 次 循环 。 从 代码 生成 角度 看 ，break 语 句 是 产生 
到 循环 《或 switch) 语句 出 口 的 无 条 件 跳 转 ， 而 continue 语 句 则 是 产生 到 
循环 语句 入 口 的 无 条 件 跳 转 。 例 如 : 





while(cond){ 
//do something 
break; 


continue; 


//do something 





翻译 为 中 间 代 码 形式 为 : 





_while: 
//do cond 
OP_JF _exit cond //if(!cond)goto _exit 


//do something 
OP_JMP _exit 


//break 


OP_JMP _while 


//continue 


//do something 
OP_JMP _while //goto _while 
_exit: 


ss = 


在 翻译 break 或 continue 语 名 时， 必须 获得 正确 的 跳 转 指令 的 目标 标 
签 。break 或 continue 语 句 只 能 出 现在 循环 语句 或 者 switch-case 语 句 内 
部 ， 因 此 在 对 循环 和 switch-case 语 句 进 行 代 码 生 成 时 ， 必 须 产生 入 口 和 
出 口 标签 。 


另外 ， 循 环 语句 和 switch-case 语 名 允许 相互 肉 套 ， 而 break 和 
continue 语 句 的 作用 对 象 是 最 内 层 的 循环 或 switch-case 语 句 。 这 与 变量 的 
作用 域 管理 机 制 比 较 相 似 ， 因 此 可 以 采用 类 似 作用 域 管理 的 方法 。 











1 vector<InterInst*> heads 
’ 
2 vector<InterInst*> tails 


/ 
3 void GenIR: :push 


(InterInst*head,InterIinst*tail)t{ 
4 heads .push_back(head); 
5 tails.push_back(tail); 
6 } 

7 void GenIR::pop 

(){ 

8 heads .pop_back( ); 

9 tails.pop_back(); 

10 } 





我 们 使 用 两 个 栈 heads 和 tails 对 循环 语句 和 switch-case 语 句 的 般 套 层 
次 进行 动态 管理 ， 其 中 heads 记 录 语 句 的 入 口 标签 序列 ，tails 记 录 语 句 的 
出 口 标签 序列 。 这 两 个 序列 是 同时 操作 的 ， 当 进入 循环 语句 或 switch 语 
句 作 用 域 时 ， 使 用 push 函 数 将 语句 的 入 口 标签 和 出 口 标签 分 别 保存 到 
heads 和 tails 栈 中 。 当 离开 循环 语句 或 switch 语 句 作 用 域 时 ， 使 用 pop 函 数 





将 heads 和 tails 的 栈 顶 元 素 弹 出 。 回 顾 前 面 讨论 的 循环 语句 和 switch-case 
语句 的 代码 生成 ， 在 处 理 语句 的 首部 和 尾部 的 代码 生成 时 ， 会 调用 push 
和 pop 函 数 完成 出 入 口 标签 的 动态 管理 。 这 样 heads 和 tails 的 栈 顶 元 素 始 
终 保存 着 当前 作用 域 所 在 循环 或 switch-case 语 句 的 入 口 和 出 口 标签 ， 如 
果 当 前 作用 域 不 在 任何 循环 或 switch 语 句 内 ， 栈 顶 元 素 应 该 保存 

NULL。 因 此 ， 需 要 对 heads 和 tails 进 行 初始 化 。 





push(NULL, NULL 


让 / /初始 化 





对 break 和 continue 语 句 进行 代码 生成 时 ， 只 需要 从 heads 和 tails 栈 顶 
取出 入 口 和 出 口 标签 即 可 。 





1 void GenIR: :genBreak 














二 InterIinst*tail=tails.back 

(); // 取 出 出 口 标签 

3 if(tail)symtab.addInst(new InterInst(OP_JMP 
;tail)); 

4 else SEMERROR 

(BREAK_ERR); //break 不 在 循环 或 


switch-case 中 





6 void GenIR: :genContinue 

















(){ 

7 InterInst*head=heads .back 

() ) // 取 出 入 口 标签 

8 if(head)symtab ,addInst(new InterInst(OP_JMP 
rhead ) ) ; 

9 else SEMERROR 

(CONTINUE_ERR); /V/continue 不 在 循环 中 
10 } 





第 2~4 行 ， 使 用 genBreak 进 行 break 语 句 代 码 生 成 时 ， 需 要 从 tails 栈 
中 取出 语 名 出口 标签 ail， 然 后 生成 目标 标签 为 tail 的 OP_JMP 指 令 。 如 果 
tail 为 NULL， 则 说 明 break 语 句 不 在 合法 的 语句 内 ， 报 告 语 义 错误 。 


第 7~9 行 ， 使 用 genContinue 进 行 continue 语 名 代码 生成 时 ， 需 要 从 
heads 栈 中 取出 语句 入 口 标签 head， 然 后 生成 目标 标签 为 head 的 OP_JMP 
指令 。 如 果 head 为 NULL， 则 说 明 continue 语 句 不 在 合法 的 语句 内 ， 报 告 


语义 错误 。 


在 前 面 讨论 的 循环 语句 和 switch-case 语 句 的 代码 生成 中 ， 产 生 的 语 
句 入 口 和 出 口 标 签 分 别 如 表 3-9 所 示 。 


表 3-9 ”语句 出 入 口 标签 




















语句 类 型 入 口 标签 出 口 标签 
while 循环 while exit 
do-while 循环 _do _exit 
for 循环 _ 泪 SE _ exit 
switch-case 分 支 NULL _ exit 
其 他 不 处 理 不 处 理 








其 中 最 为 特殊 的 是 switch-case 语 句 的 入 口 标签 ， 它 的 入 口 标 签 设置 
为 NULL。 这 是 因为 switch-case 语 句 内 不 允许 出 现 continue 语 句 ， 因 此 在 
switch-case 语 句 内 进行 continue 语 句 的 代码 生成 时 ， 取 出 的 heads 栈 顶 元 
素 为 NULL， 因 此 报告 语义 错误 。 


3.5.6 ”目标 代码 生成 


经 过 前 面 的 讨论 ， 我 们 已 经 将 高 级 语言 代码 转化 为 中 间 代 码 形 式 。 
接 下 来 要 将 中 间 代 码 翻 译 为 具体 的 目标 指令 集 指令 ， 我 们 选择 生成 Intel 
X86 指令 集 指令 。 设 计 中 间 代 码 除 了 可 以 屏蔽 具体 机 器 的 指令 集 细节 ， 
还 可 以 降低 代码 生成 时 需要 考虑 的 变量 存储 访问 的 复杂 性 。 在 中 间 代 码 
表示 中 ， 对 变量 的 信息 统一 由 Var 对 象 管理 ， 这 使 得 中 间 代 码 指令 形式 
简单 。 而 将 中 间 代 码 进一步 转化 为 目标 指令 集 代 码 时 ， 则 需要 考虑 变量 
的 存储 细 市 。 














argl arg2 





完成 (8) 结果 (4) QD 装 人 装 人 @) 
计算 写 回 寄存 器 ”寄存 器 


图 3-25 ”目标 代码 生成 








如 图 3-25 所 示 ， 我 们 根据 中 间 代 码 指令 的 一 般 形式 讨论 目标 代码 的 
生成 策略 。 中 间 代 码 指令 《四 元 式 ) 分 为 四 个 基本 要 素 : arg1 和 arg2 提 


供 计算 对 象 ，op 提 供 计 算 操 作 ，result 提 供 计 算 结 果 。 由 于 arg1、arg2 和 
result 在 中 间 代 码 指令 InterImnst 对 象 内 由 Var 对 象 统一 表示 ， 因 此 可 能 存在 
多 种 存储 类 型 一 一 常量 、 数 据 段 、 栈 、 堆 、 寄 存 嚣 等， 变量 存储 的 多 样 
性 使 得 生成 的 目标 指令 中 操作 数 的 组 合 有 数 十 种 之 多 。 为 了 简化 目标 代 
码 生成 的 烦琐 程度 ， 我 们 使 用 寄存 器 代 人 蔡 原 本 存储 形式 多 样 的 操作 数 ， 
并 将 中 间 代 码 指令 的 目标 代码 生成 划分 为 四 个 阶段 : 





1) 加 载 arg1 到 寄存 器 regl， 此 时 需要 根据 arg1 的 存储 类 型 取出 arg1 
的 值 ， 并 保存 到 寄存 器 reg1。 


2) 加 载 arg2 到 寄存 器 reg2， 此 时 需要 根据 arg2 的 存储 类 型 取出 arg2 
的 值 ， 并 保存 到 寄存 器 reg2。 


3) 生成 计算 指令 ， 根 据 op 的 特性 选择 适当 的 目标 指令 操作 码 ， 并 
以 reg1 和 reg2 为 操作 数 进行 计算 ， 计 算 结果 保存 到 reg3。 在 x86 指 令 集 
中 ，reg1 和 reg3 一 般 是 同一 个 寄存 器 。 比 如 指令 “add eax，ebx” 的 功能 便 


是 “eax=eax+ebx”， 其 中 reg1 和 reg3 都 是 寄存 右 eax。 


4) 计算 结果 写 回 ， 此 时 需要 考虑 result 的 存储 类 型 ， 将 reg3 的 值 写 
回 到 result。 


在 讨论 计算 指令 的 生成 前 ， 需 要 明确 变量 是 如 何 加 载 和 写 回 的 。 
loadVar 函 数 将 变量 加 载 到 寄存 器 。 


1 Vvoid InterInst: :1oadVar 


(string reg32,string reg8,Var*var)t{ 

2 if(!var)return; 

3 const char*reg=var->isChar()?reg8.c_str():reg32.c_str(); 

4 if(var->isChar()) 

5 emit("mov %s,0",reg32.c_str()); / /字符 


,将 


32 位 寄存 器 清 


0 

6 const char*name=var->getName().c_str(); 

7 if(var->notConst()){ 

8 int off=var->getoffset(); 

9 if(!off)f{ // 
10 if(!var->getArray()) //mo\ 
11 emit("mov %s, [%s]",reg,name); 

12 else 

13 emit("mov %s,%s",reg,name); 

14 } 

15 elsef 

16 if(!var->getArray()) //mo\ 
17 emit("mov %s, [ebp%+d]",reg,off); 

18 else 

19 emit("lea %s, [ebp%+d]",reg,off); 

20 } 

21 } 

22 elsef 

23 if(var->isBase()) /V/mov ee 
24 emit("mov %s,%d",reg,var->getVal()); 

25 else 

26 emit("mov %s,%s",reg,name); 

27 } 

28 } 





第 3 行 判 断 var 如 果 是 字符 变量 ， 则 将 变量 值 保存 到 寄存 器 的 低 8 
位 ， 人 否则 用 寄存 器 的 全 32 位 保存 变量 值 。 第 4~5 行 ， 在 var 是 字符 变量 的 


时 候 ， 将 32 位 寄存 器 清 0。 











第 7~21 行 处 理 var 不 是 常量 的 情况 。 第 10~11 行 表示 var 是 全 局 变量 ， 








直接 根据 变量 名 访问 内 存 ， 如 “mov eax，[var]j”。 第 12~13 行 表示 var 是 全 
局 数组 ， 对 数组 名 的 访问 不 是 取 内 存 的 值 ， 而 是 将 数组 名 作为 立即 数 ， 

如 “mov eax，array”。 第 16~17 行 表示 var 是 局 部 变量 ， 需 要 根据 变量 的 栈 
帧 偏 移 访 问 内 存 ， 如 “mov eax，[ebp-40]”。 第 12~13 行 表示 var 是 局 部 数 

组 ， 局 部 数组 名 的 访问 一 般 使 用 lea 指 令 取 数组 第 一 个 元 素 的 地 址 ， 

如 “lea eax，[ebp-4]”。 














第 22~27 行 处 理 var 是 常量 的 情况 。 第 23~24 行 表示 var 是 基本 类 型 常 
量 ， 使 用 var 的 getVal 方 法 将 常量 值 取 出 作为 立即 数 ， 如 “mov eax， 
100”。 第 25~26 行 表示 var 是 字符 串 常 量 ， 由 于 字符 串 和 常量 在 数据 段 ， 
此 与 全 局 数组 名 的 访问 相同 ， 即 使 用 字符 串 常 量 名 称 作为 立即 数 ， 


如 “mov eax, str”。 








loadVar 函 数 是 将 变量 的 值 取出 保存 到 寄存 占 ， 但 是 在 取 址 运算 的 
时 候 ， 对 变量 的 访问 不 是 取 值 ， 而 是 取 址 。 因 此 需要 使 用 leaVar 函 数 实 
现 变量 地 址 的 加 载 。 








1 void InterIinst::]leaVar 


(string reg32,Var*var)t{ 

2 if(!var)return; 

3 const char*reg=reg32.c_str(); 

4 const char*name=var->getName().c_str(); 

5 int off=var->getoffset(); 

6 if(!off) /An 
7 emit("mov %s,%s",reg,name),; 

8 else 

9 emit("lea %s, [ebp%+d]",reg,off); 

1 


© 


} 


二 一 








变量 的 地 址 加 载 比 较 简单 ， 数 组 变量 和 常量 是 不 需要 取 地 址 的 ， 不 
需要 考虑 ， 而 普通 的 变量 就 只 有 全 局 和 局 部 之 分 。 第 6~7 行 表示 取 全 局 
变量 的 地 址 ， 只 需要 将 变量 名 作为 立即 数 访问 即 可 ， 如 “mov eax， 
var"。 第 8~9 行 表示 取 局 部 变量 的 地 址 ， 这 个 与 局 部 数组 名 的 访问 类 
似 ， 即 使 用 lea 指 令 获 取 变 量 地 址 ， 如 “mov eax，[ebp-4]”。 











讨论 完 变量 的 加 载 后 ， 接 下 来 讨论 计算 结果 的 写 回 。 我 们 使 用 
storeVar 孙 数 将 寄存 器 的 值 写 回 到 变量 。 





1 void InterIinst::storeVar 


(string reg32,string reg8,Var*var)t{ 

2 if(!var)return; 

3 const char*reg=var->isChar()?reg8.c_str():reg32.c_str(); 

4 const char*name=var->getName().c_str(); 

5 int off=var->getoffset(); 

6 if(!off) //mov [nan 
7 emit("mov [%s],%s",name,reg); 

8 else //mov | 
9 emit("mov [ebp%+d],%s",off,reg); 

10 } 





第 3 行 判 断 var 如 果 是 字符 变量 ， 则 选择 将 寄存 器 低 八 位 的 值 保存 到 
变量 ， 人 否则 将 32 位 寄存 需 的 值 保存 到 变量 。 








就 像 对 变量 取 址 一 样 ， 计 算 结果 的 写 回 也 只 需要 考虑 普通 变量 的 情 
况 。 第 6~7 行 表示 写 入 全 局 变量 ， 将 变量 名 作为 地 址 访问 ， 
如 “mov[var]，eax”。 第 8~9 行 表示 写 入 局 部 变量 ， 需 要 根据 局 部 变量 的 
栈 帧 偏 移 访问 内 存 ， 如 “mov[ebp-4]，eax”。 











除了 将 计算 结果 写 回 到 变量 之 外 ， 局 部 变量 的 初始 化 也 需要 对 变量 


进行 写 操作 。 





1 void InterIinst::initVar 


(Var*var){ 

2 if(!var)return; 

3 if(!var->unInit())t{ 

4 if(var->isBase()) /V/mov ee 
5 emit("mov eax,%d",var->getVal()); 

6 else 

7 emit("mov eax,%s",var->getptrVval().c_str()); 

8 storeVar ("eax", "al",var); 

9 } 

10 } 





第 3 行 判 断 变量 是 否 被 初始 化 ，unInit 函 数 检测 var 的 inited 字 段 是 否 
为 false， 只 有 使 用 常量 初始 化 的 变量 ， 其 inited 字 段 才 设 为 tue《〈 详 见 
3.4.1 闻 setInit 函 数 实 现 ) 。 第 4~5 行 表示 基本 类 型 变量 的 初始 化 ， 只 需要 
调用 getVal 函 数 将 变量 的 初始 值 取出 ， 作 为 立即 数 保存 到 eax 寄 存 器 ， 


如 “mov eax, 100”。 


第 6~7 行 表示 字符 指针 变量 的 初始 化 ， 其 初始 值 必 是 常量 字符 串 。 
通过 调用 getPtrVal 函 数 获取 字符 串 常量 的 名 称 ， 并 作为 立即 数 保存 到 


eax 寄 存 器 ， 如 “mov eax，str”。 

第 8 行 调用 storeVar 将 eax 寄 存 器 的 值 写 入 变量 Var， 完 成 变量 的 初始 
化 。 

目标 代码 生成 中 ， 获 取 操 作 数 的 值 或 者 地 址 只 需要 调用 loadVar 和 


leaVar 将 需要 的 操作 数 加 载 到 寄存 器 ， 写 入 计算 结果 时 只 需要 调用 
storeVar 将 寄存 器 写 入 内 存 即 可 ， 这 使 得 计算 指令 的 翻译 大 大 简化 。 函 


数 toX86 将 中 间 代 码 指 令 转化 为 x86 汇 编 指令 。 





1 #define emit 


(fmt, args...) fprintf(file,"\t"fmt"\n", ##args) 
2 void InterInst::toxX86 


(){ . 

3 if(label!=""){ 

4 fprintf(file,"%s:\n",1label.c_str()); 
5 return; 

6 小 

7 Switch(op){ 

8 case OP_DEC : 

9 initVar(arg1); 

10 break; 

11 case OP_ENTRY: 

12 emit("push ebp"); 

13 emit("mov ebp,esp"); 

14 emit("sub esp,%d",inst->getFun()->getMaxDep()); 
15 break; 

16 case OP_EXIT: 

17 emit( "mov esp, ebp"); 

18 emit("pop ebp"); 

19 emit("ret"); 

20 break; 

21 case OP_AS: 

22 loadVar("eax","al",arg1); 

23 storeVar("eax","al",result); 
24 break; 

25 case OP_ADD: 

26 loadVar("eax","al",arg1); 

27 loadVar ("ebx", "bl",arg2); 

28 emit("add eax,ebx"); 

29 storeVar("eax","al",result); 
30 break; 

31 case OP_SUB: 

32 loadVar("eax","al",arg1); 

33 loadVar("ebx", "bl",arg2); 

34 emit("sub eax,ebx"); 

35 storeVar("eax","al",result); 
36 break; 

37 case OP_MUL : 

38 loadVar("eax","al",arg1); 
39 loadVar ("ebx", "bl",arg2); 
40 emit("imul ebx"); 

41 storeVar("eax","al",result); 
42 break; 

43 case OP_DIV : 

44 loadVar ("eax","al",arg1); 
45 loadVar ("ebx", "bl",arg2); 
46 emit("idiv ebx"); 

47 storeVar("eax","al",result); 
48 break; 

49 case OP_MOD: 

50 loadVar("eax","al",arg1); 
51 loadVar ("ebx", "bl",arg2); 
52 emit("idiv ebx"); 

53 storeVar("edx", "dl",result); 


54 break; 


CaSe 


Case 


Case 


Case 


Case 


Case 


Case 


Case 


Case 


OP_NEG: 
loadVar("eax","al",arg1); 
emit("neg eax"); 
storeVar("eax","al",result); 
break; 

OP_GT: 
loadVar ("eax", "al", arg1); 
loadVar ("ebx", "bl",arg2); 
emit("mov ecx,0"); 
emit("cmp eax,ebx"); 
es c1") 5 
StoreVvar("ecx",， "cl",result); 
break; 

OP_GE : 
loadVar ("eax", "al",arg1); 
loadVar ("ebx", "bl",arg2); 
emit("mov ecx,0"); 
emit("cmp eax,ebx"); 
a c1") 
storeVar("ecx", "cl",result); 
break; 

OP_LT: 
loadVar ("eax", "al", arg1); 
loadVar ("ebx", "bl",arg2); 
emit("mov ecx,0"); 
emit("cmp eax,ebx"); 
ei c1") ; 
storeVar("ecx", "cl",result); 
break; 

OP_LE: 
loadVar ("eax", "al",arg1); 
loadVar ("ebx", "bl",arg2); 
emit("mov ecx,0"); 
emit("cmp eax,ebx"); 
i c1") 2 
storeVar("ecx", "cl",result); 
break; 

OP_EQU: 


loadVar ("eax","al",arg1); 
loadVar ("ebx", "bl",arg2); 
emit("mov ecx,0"); 

emit("cmp eax,ebx"); 
emit("sete cl1") 
storeVar("ecx", "cl",result); 


break; 

OP_NE : 
loadVar ("eax", "al",arg1); 
loadVar ("ebx", "bl",arg2); 
emit("mov ecx,0"); 
emit("cmp eax,ebx"); 
emit("setne cl") 
storeVar("ecx", "cl",result); 
break; 

OP_NOT: 
loadVar ("eax", "al",arg1); 
emit("mov ebx,0"); 
emit("cmp eax,O0"); 
emit("sete bl"); 
storeVar("ebx", "bl",result); 
break; 

OP_AND : 


loadVar ("eax", "al",arg1); 
emit("cmp eax,O0"); 
emit("setne cl1"); 
loadVar ("ebx", "bl",arg2); 
emit("cmp ebx,0"); 
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Case 


Case 


Case 


Case 


Case 


Case 


Case 


Case 


Case 


Case 


Case 


Case 


Case 


emit("setne bl1"); 
emit("add eax,ebx"); 
storeVar("eax","al",result); 


break; 
OP_OR: 
loadVar ("eax","al",arg1); 
emit("cmp eax,0"); 
emit("setne al"); 
loadVar ("ebx", "bl",arg2); 
emit("cmp ebx,0"); 
emit("setne bl"); 
emit("or eax,ebx"); 
storeVar("eax","al",result); 
break; 
OP_JMP : 
emit("jmp %s",target->label.c_str()); 
break; 
OP_JT: 
loadVar ("eax", "al",arg1); 
emit("cmp eax,0"); 
emit("jne %s",target->label.c_str()); 
break; 
OP_JF: 
loadVar ("eax", "al",arg1); 
emit("cmp eax,O0"); 
emit("je %s",target->label.c_str()); 
break; 
OP_JNE : 
JoadVvar("eax"， "al"arg1)，; 
loadVar ("ebx", "bl",arg2); 
emit("cmp eax,ebx"); 
emit("jne %s",target->label.c_str()); 
break; 
OP_ARG: 
loadVar ("eax","al",arg1); 
emit("push eax"); 
break; 
OP_PROC: 
emit("call %s",fun->getName().c_str()); 
emit("add esp,%d",fun->getParaVar().size()*4); 
break; 
OP_CALL: 
emit("call %s",fun->getName().c_str()); 
emit("add esp,%d",fun->getParaVar().size()*4); 
storeVar("eax","al",result); 
break; 
OP_RET: 
emit("jmp %s",target->label.c_str()); 
break; 
OP_RETV: 
loadVar ("eax","al",arg1); 
emit("jmp %s",target->label.c_str()); 
break; 
OP_LEA: 
leaVar ("eax",arg1); 
storeVar("eax","al",result); 
break; 
OP_SET: 
loadVar("eax","al",result); 
loadVar ("ebx", "bl",arg1); 
emit("mov [ebx],eax"); 
break; 
OP_GET: 


loadVar ("eax","al",arg1); 
emit("mov eax, [eax]"); 
storeVar("eax","al",result); 


187 break; 








小 





1 行 的 emit 宏 是 对 fprintf 的 封装 ， 表 示 将 一 条 指令 写 入 文件 ， 并 在 指令 前 添加 一 个 制 表 符 ， 在 指令 结尾 处 

















小 








3 行 ]abel 字 段 不 为 空 ， 表 示 输 出 标签 指令 ， 在 标签 后 添加 字符 “: “和 换行 符 。 第 7~187 行 处 理 所 有 的 中 间 1 



































第 8~10 行 处 理 OP_DEC 指 令 ， 调 用 initVar 处 理 变量 的 初始 化 。 






































第 11~15 行 处 理 OP_ENTRY 指 令 ， 输 出 函数 入 口 代 码 。 包 括 ebp 入 栈 、 保 存 esp、 开 辟 栈 帧 。 第 16~20 行 处 理 0 



































Nl 














第 21~24 行 处 理 0P_AS 指 令 ， 调 用 loadVar 将 arg1 加 载 到 寄存 器 eax (或 8 位 寄存 器 al1) ， 再 调用 storeVar 














Nl 


第 25~54 行 处 理 双 目 算术 运算 指令 加 、 减 、 乘 、 除 、 取 模 ， 对 应 操作 符 为 OP_ADD、0OP_SUB、OP_MUL、OP_D 

















第 55~59 行 处 理 取 负 单 目 算术 运算 指令 ， 操 作 符 为 OP_NEG。 调 用 loadvar 将 arg1 加 载 到 寄存 器 eax， 生 成 计 








ul 








第 60~107 行 处 理 关 系 运算 指令 ， 对 应 操作 符 为 OP GT、0OP_GE、0OP_LT、0OP_LE、0OP_EQU、0OP_NE。 首 先 调 














mov ecx,0 
cmp eax,ebx 
set? cl 








中 ，“set? “指令 会 根据 cmp 指 令 的 比较 结果 将 ecx 设 置 为 1L。 上 述 关 系 运算 对 应 的 “set? “指令 分 别 为 “se 

















YX 
4 








第 108~114 行 处 理 逻 辑 非 运算 指令 ， 操 作 符 为 OP_NOT。 调 用 loadVar 将 arg1 加 载 到 寄存 器 eax， 然 后 生成 如 














mov ebx,0 
cmp eax,0 
sete bl 











首先 将 ebx 设 为 0， 然 后 比较 eax 是 否 等 于 0，eax 如 果 等 于 0 则 将 ebx 设 为 1， 这 样 ebx 保 存 了 eax 的 逻辑 非 结果 

















第 115~134 行 处 理 逻 辑 与 、 逻 辑 或 运算 指令 ， 操 作 符 分 别 为 OP_AND、0P_OR。 首 先 调 用 loadVar 将 arg1 加 卉 






































第 135~137 行 处 理 无 条 件 跳 转 指令 OP_JMP， 直 接生 成 jmp 指 令 ， 目标 标签 地 址 为 target 的 label 字 上 段 名 。 












































第 138~147 行 处 理 条 件 跳 转 指令 0OP_JT、0P_JF。 首 先 将 arg1i 加 载 到 eax， 然 后 生成 “cmp eax，07" 指 令 ， 乔 











第 148~153 行 处 理 条 件 跳 转 指令 OP_JNE。 首 先 将 arg1 加 载 到 eax， 将 arg2 加 载 到 ebx， 然 后 生成 “cmp eax 
































第 154~157 行 处 理 参数 入 栈 指令 0OP_ARG。 首 先 将 arg1 加 载 到 eax， 然 后 使 用 “push eax” 指令 将 参数 入 栈 。 















































call 指 令 调 用 函数 ， 函 数 名 为 fun 的 name 字 

















Hr 
pe 
bn 

ee 


第 158~166 行 处 理 函 数 调 用 指令 OP_PROC 和 OP_CALL。 首 4 



































指令 OP_RET 和 0P_RETV。 对 于 OP_RETV 指 令 需 要 调用 loadVar 将 函数 返回 值 arg 





入 


第 167~173 行 处 理 函 数 



































ul 











第 174~177 行 处 理 取 址 运算 指令 OP_LEA， 首 先 调用 leaVar 将 arg1 的 地 址 保存 到 eax， 然 后 调用 storeVar 米 











第 178~187 行 处 理 指针 运算 指令 OP_SET 和 OP_GET。 


























OP_SET 指 令 的 含义 为 “*arg1=resulLt”， 因 此 首先 调用 loadVar 将 resu1lt 保 存 到 eax， 将 arg1 保 存 到 ebx， 
































OP_GET 指 令 的 含义 为 “result=*arg1”， 因 此 首先 调用 loadVar 将 arg1 保 存 到 eax， 然 后 生成 “mov eax， 























3.5.7 ”数据 段 生成 


在 Linux 系 统 中 ， 将 代码 的 静态 数据 放 在 3 个 独立 的 段 内 。 
《1)“.data" 段 。 该 段 保存 所 有 已 初始 化 的 全 局 变量 。 


(2)“.bss” 段 。 该 段 保 存 所 有 未 初始 化 的 全 局 变量 ， 且 初始 化 为 








(3)“.rodata” 段 。 该 段 保存 所 有 常量 字符 串 的 内 容 。 


为 了 减少 段 的 数量 ， 达 到 清晰 说 明 编译 系统 实现 的 目的 ， 我 们 将 上 
述 三 个 段 合 并 到 “.data”， 统 称 为 数据 段 。 数 据 段 的 信息 来 源 于 全 局 变量 
的 定义 和 常量 字符 串 。 





在 符号 表 中 ，varTab 保 存 了 所 有 变量 的 信息 ， 数 据 段 只 关心 全 局 变 
量 的 定义 。 因 此 ， 需 要 提供 从 varTab 中 获取 全 局 变量 的 方法 。 





1 vector<Var*> SymTab: :getGlbVars 


( 

2 vector<Var*> glbVars; 

3 hash_map<string,vector<Var*>*, string_hash>::iterator varIt 

4 ,VarEnd=varTab .end(); 

5 for(varIit=varTab.begin();varIt!=varEnd;++varIt)t{ 

6 string varName=varIt->first,; 

7 if(varName[0]=='<')continue; / /忽略 常量 


Vector<Var*>&list=*VvarIt->Second ; 
9 for(int j=0;j<list.size();j++){ 
10 if(list[j]->getPath().size()==1){ / /全 局 变量 





11 glbVars.push_back(1list[j]); 
12 break; 


13 } 
14 } 

15 } 

16 return glbVars,; 
17 } 








函数 getGlbVars 返 回 全 局 变量 列表 ， 第 5 行 壳 历 varTab。 





第 6 行 取出 变量 名 varName， 如 果 以 字符 '<' 开 始 ， 说 明 是 数字 篆 量 ， 
则 忽略 。 


第 8~9 行 取出 同名 变量 列表 1list， 并 过 历 。 





第 10 行 判断 列表 内 每 个 变量 的 作用 域 路 径 是 人 否 长 度 为 1， 即 作用 域 
路 径 为 "0?。 判 断 成 功 后 表示 该 变量 是 全 局 变量 ， 将 变量 对 象 添 加 到 列 
表 glbVars， 并 停止 列表 查找 ， 因 为 全 局 作用 域内 不 可 能 出 现 男 一 个 同名 
的 变量 。 














在 符 写 表 中 ，strTab 保 存 了 所 有 字符 串 常 量 的 信息 ， 数 据 段 需要 保 
存 冲 量 字符 串 的 内 容 。 词 法 分 析 器 对 字符 串 扫 描 后 ， 将 之 转化 为 字符 串 
的 二 进 制 表 示 ， 比 如 字符 串 “abcv” 在 字符 串 常 量 的 变量 对 象 内 ， 保 存 的 
字符 串 内 容 为 a、b'、'c、N。 代 码 生成 需要 将 字符 串 内 容 输出 到 汇编 
代码 文件 内 ， 上 述 字符 串 输出 后 ， 换 行 符 会 按照 字符 格式 打印 ， 在 文件 
内 产生 换行 ， 而 非 输 出 An”。 当 然 可 以 选择 将 特殊 的 字符 再 次 转化 为 转 








义 字符 输出 ， 比 如 对 于 换行 符 ， 输 出 字符 串 \、'n'。 不 过 我 们 选择 输出 
与 NASM 汇 编 语法 相似 的 格式 。 





"abc",10,0 





对 于 普通 的 字符 串 ， 我 们 输出 字符 串 本 身 的 内 容 并 在 字符 串 首 尾 加 
双 引 号 。 而 对 于 特殊 字符 则 将 其 转化 为 对 应 的 ASCII 码 后 输出 ， 并 且 以 
喜 号 进行 分 隔 。 需 要 考虑 的 特殊 字符 有 : 制 表 符 \、 换 行 符 \n'、 双 引 


号 \"、 字 符 串 结束 符 "0'。 











字符 串 转 换 的 思想 是 ， 逐 字 节 扫 擂 字符 串 内 容 ， 依 次 处 理 每 个 字符 
的 输出 格式 。 对 于 特殊 字符 ， 输 出 其 ASCI 码 ， 否 则 正常 输出 字符 。 我 
们 使 用 变量 chpass 记 录 上 一 个 字符 的 输出 形式 ，0 表 示 输 出 ASCI 码 ，1 
表示 输出 字符 。 当 上 一 个 字符 的 输出 形式 是 ASCII 码 时 ， 如 果 当 前 字符 
输出 形式 仍 是 ASCI 码 ， 则 需要 插入 有 逗号 后 再 输出 ASCII 码 ， 人 否则 先后 
输出 逗号 和 双 引 号 〈 字 符 串 开始 ) ， 再 输出 字符 。 当 上 一 个 字符 的 输出 
形式 是 字符 时 ， 如 果 当 前 字符 输出 形式 是 ASCII 码 ， 则 需要 先后 输出 双 
引号 〈 字 符 串 结束 ) 和 有 逗号， 再 输出 ASCII 码 ， 否 则 直接 输出 字符 。 另 
外 ， 如 果 当 前 输出 的 字符 是 第 一 个 字符 时 ， 则 不 需要 插入 至 写 。 如 果 当 
前 输出 的 字符 是 最 后 一 个 字符 ， 且 输出 形式 不 是 ASCII 码 时 ， 需 要 输出 
一 个 双 引 号 表示 字符 串 结束 。 所 有 字符 处 理 完毕 后 ， 还 需要 输出 一 个 去 


写 和 和 0， 表示 结束 标记 。 











将 字符 串 转化 为 NASM 语 法 格式 的 实现 代码 为 : 





1 


— 
ey 


‘OO0NOURON 


string Var::getRawStr 


stringstream ss; 
int len=strVal.size(); 
for(int i=0,chpass=0;i<len;i++){ 
if(strVal[i]==10 
||strval[i]==9 
| 1strval[i]=="\"" 
||lstrval[i]=="'\0°'){ 
if(chpass==0) 
if(i!=0)ss<<",",; 
ss<<(int)strval[i]; 
else 
ss<<"\", "<<(int)strval[il]; 
chpass=0; 
elsef 
if(chpass==0){ 
if(i!=0)ss<<",",; 
ss<<"\""<<strVal[i]; 
else 
ss<<strVal[i]; 
if(i==len-1)ss<<"\"",; 
chpass=1; 
} 
ss<<" Oo" 
return ss.str(); 
} 


//\n \t ™ \0 


/ /字符 串 结 








18~27 行 处 理 普通 


符 


第 4 行 扫描 字符 串 内 的 字符 ， 第 5~17 行 处 理 特殊 字符 的 输出 ， 第 


字符 的 输出 ， 第 29 行 处 理 字符 串 结束 标记 。 


第 11~13 行 处 理 输 出 ASCII 码 后 仍 输 出 ASCII 码 的 情况 ， 如 果 当 前 字 


不 是 


第 15 行 处 理 输出 普 


第 一 个 字符 则 需要 插入 逗号 。 


通 字 符 后 输出 ASCII 码 的 情况 ， 此 时 需要 插入 双 


第 19~22 行 处 理 输出 ASCII 码 后 输出 普通 字符 的 情况 ， 如 果 当 前 字符 
不 是 第 一 个 字符 则 需要 插入 逗号 ， 然 后 插入 双 引 号 。 


第 24 行 处 理 输出 普通 字符 后 输出 普通 字符 的 情况 ， 此 时 直接 将 字符 
给 出。 














第 25 行 判断 输出 的 普通 字符 是 否 是 最 后 一 个 字符 ， 如 果 古 则 输出 双 


ss 


第 29 行 输出 字符 串 结束 标记 ， 即 召 号 和 数字 0。 


通过 这 样 的 转换 ， 字 符 串 “thellomworld! ”被 转化 为 如 下 形式 : 





9, "hello",10, "world",0 





其 中 9 为 制 表 符 的 ASCII 码 ，10 为 换行 符 的 ASCII 码 ，0 为 字符 串 结 
束 标 记 。 


在 描述 数据 段 生成 之 前 ， 需 要 了 解 NASM 汇 编 的 数据 定义 语法 : 





<label> [times] <len> <value> 





其 中 ， 








1) label 部 分 表示 任意 的 合法 标识 符 ， 一 般 是 变量 名 。 





2) times 可 选 部 分 表示 后 面 数 据 的 重复 次 数 ， 比 如 “times 100” 表 示 
重复 100 次 ， 一 般 用 于 定义 数组 。 


3) len 部 分 指 单 位 内 存 大 小 ，“db” 表 示 一 个 字 市 、“dw” 表 示 两 个 字 


节 、“dd” 表 示 四 个 字 节 。 





4) value 部 分 表示 初始 值 ， 初 始 值 可 以 是 整数 常量， 可 以 是 标识 
符 ， 也 可 以 是 上 述 NASM 格 式 的 字符 串 。 





例如 以 下 全 局 变量 定义 。 











char ch / /变量 未 
0 

int Var=100 / /变量 已 初始 
int array[255]; / /全 局 数组 的 初始 值 >》 
0 

char*str="hello"; / /假设 字符 串 常量 
@LO” 





使 用 NASM 的 数据 定义 语法 表示 为 : 





ch db 0 //ch, 


工 字 节 ， 初 值 


0 
var dd 100 //VE 


4 字 节 ， 初 值 


100 
array times 255 dd 0 //array, 


255x4 字 节 ， 初 值 


0 
str dd @LO /VSt 
4 字 节 ， 初 值 


Q@LO 
@LO db "hello",0 //Q@LO 


6 字 节 ， 初 值 


hello” 





我 们 发 现 NASM 语 法 定义 的 数据 长 度 实 际 是 times、len 和 value 三 者 
长 度 的 乘积 。 


数据 段 生 成 实现 代码 如 下 : 





1 void SymTab : :genData 





(){ 

2 vector<Var*> glbVars=getGlbVars 

(); / /全 局 变量 

3 for(unsigned int i=0;i<glbVars.size();i++){ 

4 Var*var=glbVars[i]; 

5 fprintf(file,"global %s\n",var->getName().c_str()); 
6 fprintf(file,"\t%s ",var->getName().c_str()); 

7 int typeSize=var->getType()==KW_CHAR?1:4; 


8 If(var->getArray( ) ) 


9 fprintf(file,"times %d ",var->getSizel( )/typeSize); 

10 const char* type=var->getType( )==KW_CHAR&&IVar->getPtr() 

11 ?"db":"dd"; 

12 fprintf(file,"%s ",type); //db dr 
13 if(!var->unInit())t{ 

14 if(var->isBase()) / 
15 fprintf(file,"%d\n",var->getVal()); 

16 else 

17 fprintf(file,"%s\n",var->getptrVval().c_str()); 
18 } 

19 else 

20 fprintf(file, "0O\n"); 

21 

22 hash_map<string,Var*,string_hash>::iterator StrIt， 

23 strEnd=strTab.end( ) ; 

24 for(strIit=strTab.begin();strIit!=strEnd;++StrIt)t{ 

25 Var*str=strIt->second; 

26 fprintf(file, 

27 "\t%s db %s\n", 

28 str->getName().c_str(), 

29 str->getRawStr 

().c_str()); //str db "abc",0 

30 } 

31 } 





第 2~21 行 处 理 全 局 变量 的 翻译 ， 第 22~30 行 处 理 常 量 字 符 串 的 翻 
译 。 

第 5~6 行 使 用 global 声 明 变 量 名 为 全 局 符号 ， 并 输出 变量 名 作为 label 
部 分 。 第 7~9 行 处 理 数组 ， 输 出 times 部 分 ， 第 10~12 行 处 理 内 存单 位 大 
小 ， 输 出 len 部 分 ， 第 13~21 行 处 理 变 量 的 初 值 ， 输 出 value 部 分 。 


第 14~15 行 处 理 基 本 类 型 变量 的 初 值 ， 调 用 getVal， 输 出 变量 的 


值 。 


第 17 行 处 理 字符 指针 变量 的 初 值 ， 调 用 getPtrVal， 输 出 字符 串 常 量 
的 名 称 。 


第 20 行 处 理 未 初始 化 的 变量 ， 输 出 初 值 0。 


第 26~29 行 输出 常量 字符 串 的 名 称 、db 和 字符 串 的 NASM 格 式 字符 
串 内 容 。 





经 过 目标 代码 生成 和 数据 段 生 成 ， 源 代码 被 翻译 为 NASM 格 式 的 
x86 汇 编 指令 程序 ， 接 下 来 将 代码 段 和 数据 段 整合 ， 输 出 到 汇编 文件 。 





1 void SymTab : :genAsm 


() 

2 I 

3 fprintf(file, "section .data\n"); / /数据 段 
4 genData 

(); 

5 fprintf(file,"section .text\n"); / /代码 段 
6 hash_map<string, Fun*, string_hash>::iterator funIt， 

7 funEnd=funTab .end( ); 

8 for(funIit=funTab.begin();funIt!=funEnd;++funIt){ 

9 Fun*fun=funIt->second; 

10 fprintf(file,"global %s\n",fun->getName().c_str()); 

11 fprintf(file,"%s:\n",fun->getName().c_str()); 

12 vector<InterIinst*>&code=fun->getIinterCode(); 

13 vector<InterInst*>::iterator instIt,instEnd=code.end(); 

14 for(instIt=code.begin();instIt!=instEnd;++instIt){ 

15 (*instIt)->tox86 

(); 

16 3 





第 3~4 行 输出 “section.data" 声 明 数 据 段 ， 并 调用 genData 输 出 数据 段 


内 容 。 





第 5 行 输出 “section.text”* 声 明代 码 段 ， 第 8~15 行 台历 函数 表 funTab 输 
出 每 个 函数 的 代码 。 


第 10~11 行 使 用 global 声 明 函 数 名 为 全 局 符号 我们 认为 函数 是 全 局 
可 见 的 ) ， 输 出 函数 名 ， 并 以 冒号 结束 ， 表 示 函 数 起 始 地 址 。 第 12 行 获 
取 函 数 的 中 间 代 码 。 








第 13~16 行 遍历 函数 的 中 间 代 码 ， 并 调用 toX86 将 中 间 代 码 转 化 为 
x86 汇 编 代 码 。 


3.6 ”本 章 小 结 


本 章 我 们 根据 已 设计 的 编译 占 结 构 ， 分 别 从 词法 分 析 、 语 法 分 析 、 
符号 表 管 理 、 语 义 分 析 和 代码 生成 的 角度 描述 了 一 个 简单 的 编译 器 实 
现 。 从 大 量 的 实例 代码 中 ， 可 以 发 现 编译 圳 实 现 的 每 一 个 细节 。 另 外 从 
实现 编译 器 的 过 程 中 不 仅 能 解 开 高 级 语言 层面 的 很 多 疑惑 ， 还 能 加 深 对 
计算 机 程序 工作 机 制 的 理解 ， 这 对 理解 计算 机 工作 原理 的 本 质 是 非常 重 


要 的 。 














按照 本 章 描 述 的 编译 器 实现 ， 我 们 发 现 生 成 的 汇编 代码 索 琐 而 了 见 
长 ， 有 些 代码 甚至 是 没有 必要 存在 的 。 在 第 4 章 ， 我 们 将 阐述 如 何 使 用 
优化 技术 使 编译 器 生成 的 目标 代码 更 简洁 、 高 效 。 





第 4 草编 详 优 化 
如 切 如 磋 ， 如 琢 如 磨 。 


一 一 《诗经 》 








没有 编译 优化 功能 的 编译 器 生成 的 代码 存在 大 量 的 元 余 ， 无 论 是 生 
成 的 中 间 代 码 还 是 生成 的 目标 汇编 代码 。 





例如 ， 在 中 间 代 码 生 成 的 过 程 中 ， 对 于 源 代码 表达 式 


a=1+2+3; 


生成 的 中 间 代 码 形 式 为 《为 了 更 清晰 地 表达 中 间 代 码 指令 的 含义 ， 我 们 
将 四 元 式 “<op，result，argl1，arg2>” 表 示 为 “result=arg1 op arg2” 的 形 
式 ， 其 中 操作 符 op 选 用 常用 的 运算 符 代 蔡 ) : 


t1=1+2 

t2=t1+3 

a=t2 

我 们 发 现 表 达 式 “a=1+2+3; ”的 实际 效果 是 “a=6; ”， 而 且 在 编译 时 
期 ， 完 全 可 以 计算 出 临时 变量 tL=3、t2=6。 我 们 希望 通过 中 间 代 码 优化 
后 ， 可 以 将 上 述 三 条 中 间 代 码 指令 缩减 为 一 条 。 





这 样 的 中 间 代 码 优化 方式 称 为 常量 传播 ， 即 将 变量 的 常量 初 值 传递 
到 使 用 变量 的 表达 陈 中 ， 尽 可 能 计算 出 表达 式 的 值 ， 并 依次 将 变量 的 值 
传播 下 去 ， 达 到 简化 代码 的 目的 。 除 了 常量 传播 ， 后 面 还 会 介绍 复写 传 
播 、 死 代码 消除 等 优化 算法 的 实现 。 

在 目标 代码 生成 过 程 中 ， 也 存在 元 余 的 情况 ， 如 中 间 代 码 指令 : 


a=b+c 





生成 的 目标 汇编 代码 形式 为 《假设 变量 a、b、<c 都 是 全 局 int 类 型 变 


mov eax, [al] 
mov ebx, [b] 
add eax, ebx 
mov [cl],eax 


ODP 


我 们 发 现 第 >、3 条 汇编 指令 可 以 用 一 条 指令 代 蔡 ， 上 述 汇 编 代 码 被 
转化 为 如 下 形式 : 





1 mov eax,[al 
2 add eax,[b] 
3 mov [cl],eax 


这 样 的 目标 代码 优化 方式 称 为 笑 孔 优化 ， 即 通过 发 现 指令 模式 ， 使 
用 单一 的 指令 代 答 多 条 功能 等 价 的 指令 ， 从 而 达到 简化 代码 的 目的 。 








在 第 2 草图 2-9 中 描述 的 现代 编译 器 结构 中 ， 将 编译 圳 分 为 前 器、 优 


化 堪 和 后 端 三 个 部 分 。 编 译 器 的 后 端 包含 了 指令 选择 、 寄 存 器 分 配 和 指 
令 调 度 ， 本 质 上 它们 与 代码 的 优化 姑且 相关。 我 们 着 重 描述 寄存 右 分 配 
的 实现 ， 对 指令 选择 和 指令 调度 不 做 说 明 ， 对 此 感 兴趣 的 读者 可 以 参考 
其 他 编译 占 相 关 资 料 进 行 学 习 。 


基于 以 上 的 讨论 ， 我 们 对 优化 器 的 设计 如 图 4-1 所 示 。 


寄存 器 分 配 


死 代码 消除 


中 间 代码 四 本 目标 代码 





图 4-1 优化 器 结构 





根据 3.5 节 中 的 描述 ， 中 间 代 码 经 过 目标 代码 生成 被 翻译 为 目标 汇 
编 代码 。 因 此 ， 编 译 优化 分 为 中 间 代 码 优 化 和 目标 代码 优化 两 个 部 分 。 
如 图 4-1 所 示 ， 在 我 们 实现 的 优化 费 中 ， 中 间 代 码 优 化 经 过 常量 传播 、 
复写 传播 和 和 死 代码 消除 三 个 过 程 。 寄 存 器 分 配 可 以 选择 在 目标 代码 生成 








之 前 进行 ， 即 为 中 间 代 码 分 配 寄存 器 。 目 标 代 人 码 优化 由 宁 孔 优化 实现 。 


4.1 ”数据 流 分 析 


中 间 代 码 优化 一 般 是 在 数据 流 分 析 的 基础 上 进行 的 ， 且 满足 通用 的 
数据 流 分 析 框 染 。 


如 图 4-2 所 示 ， 中 间 代 码 优 化 首先 为 中 间 代 码 构造 流 图 (控制 流 
图 ) ， 然 后 对 流 图 进行 数据 流 分 析 ， 并 获得 需要 的 数据 流 信 息 ， 最 后 根 
据 数据 流 信息 指导 中 间 代 码 的 优化 。 数 据 流 分 析 处 理 的 对 象 是 流 图 ， 因 
此 在 进行 数据 流 分 析 之 前 ， 需 要 了 解 流 图 的 构造 。 





数据 流 分 析 





流 图 构造 中 间 代码 中 间 代 码 优化 





图 4-2 ”基于 数据 流 分 析 的 中 间 代 码 优化 


4.1.1 流 图 





流 图 是 有 向 有 坏 图 ， 满 足 图 数据 结构 的 基本 性 质 。 一 般 包 含 一 个 入 
口 贡 点 和 一 个 出 口 节点 ， 流 图 的 走 癌 总 是 从 入 口 节 点 到 出 口 节点 ， 且 流 
图 中 允许 出 现 环 。 流 图 的 市 点 称 为 基本 块 ， 流 图 的 边 表示 基本 块 间 的 跳 
转 天 系 。 





为 了 构造 流 图 ， 需 要 了 解 首 指令 的 概念 。 中 间 代 码 的 首 指令 定义 如 


1) 第 一 条 指令 。 


We 


2) 跳 转 指令 的 目标 指令 。 





SA 


3) 紧 跟 跳 转 指令 之 后 的 指令 。 





中 间 代 码 首 指 令 和 下 条 首 指令 前 的 所 有 指令 组 成 的 整体 称 为 基本 
块 。 根 据 首 指令 的 定义 可 以 确定 ， 基 本 块 内 的 指令 是 顺序 执行 的 ， 不 存 
在 跳 转 分 文 。 


如 图 4-3 所 示 ， 函 数 f 的 实现 代码 被 翻 译 为 中 间 代 码 。 在 中 间 代 码 
中 ， 根 据 首 指 令 的 定义 ， 指 令 0 是 第 一 条 指令 ， 指 令 4 和 指令 10 是 跳 转 指 
令 的 目标 指令 ， 指 令 6 紧 跟 跳 转 指令 5 之 后 ， 因 此 指令 0、4、6、10 是 首 





指令 。 根 据 基 本 块 的 定义 ， 流 图 共 包含 4 个 基本 块 ， 对 应 的 指令 编号 序 

列 分 别 为 “指令 0~3”、“ 指 令 4~5”、“ 指 令 6~9” 和 “指令 10”。 为 了 保证 流 图 
仅 包 含 一 个 入 口 和 一 个 出 口 ， 在 流 图 开始 处 添加 入 口 基本 块 Entry， 在 

流 图 结束 处 添加 出 口 基本 块 Exit。 入 口 和 出 口 基本 块 恰好 与 中 间 代 码 指 
令 OP_ ENTRY 和 OP_EXIT 对 应 ， 因 此 将 这 两 条 指令 分 别 作为 独立 的 基本 
志 ; 






Li 


if(la)goto L2 
decL3 

L3=a+b 

让 起 

gofoLi 


引 源 代码 b) 中 间 代 码 c) 流 医 


a=1; 
hile (aj{ 


c=a+b:; 





图 4-3 ” 流 图 构造 





接 下 来 讨论 流 图 构造 的 实现 ， 首 先是 首 指 令 的 标识 。 








1 void InterCode: :markFirst 


(){ 
2 


unsigned int len=code.size(); / /最 少 两 条 指令 


3 code[0]->setFirst(); //OP_ 
4 code[len-1]->setFirst(); / 
5 code[1]->setFirst(); ZX 第 二 
6 for(unsigned int i=1;i<len-1;++i){ 

7 if(code[i]->isJmp()||code[i]->isJcond()){ 

8 code[i]->getTarget(). 

setFirst(); // 跳 转 

9 code[i+1]->setFirst(); //! 
10 } 

11 } 

12 } 





变量 code 是 vector<InterInst*> 类 型 ， 记 录 了 函数 所 有 的 中 间 代 码 。 
在 中 间 代 码 生 成 时 ， 无 论 函 数 体 是 否 为 空 ， 总 是 生成 函数 入 口 指 令 
OP_ENTRY 和 函数 出 口 指令 OP_EXIT。 因 此 ，code 内 至 少 包含 两 条 指 


令 。 





由 于 需要 构造 基本 块 Entry 和 Exit， 因 此 第 3~4 行 将 code 的 第 一 条 和 
最 后 一 条 指令 标识 作为 首 指令 。setFirst 函 数 设置 了 指令 InterInst 对 象 的 
first 字 段 。 第 5 行 的 code[1] 是 函数 内 真正 的 第 一 条 指令 ， 满 足 首 指令 的 条 
件 1， 因 此 需要 标识 为 首 指令 。 





第 6~11 行 处 理 首 指令 的 条 件 2 和 3， 第 7 行 判断 指令 code[i] 是 否 是 跳 
转 指 令 ，isJmp 表 示 无 条 件 跳 转 指令 ，isJcond 表 示 条 件 跳 转 指令 。 第 8 行 
将 跳 转 指令 的 目标 指令 标识 为 首 指令 ， 第 9 行将 跳 转 指令 后 紧 跟 的 指令 





标识 为 首 指令 。 





完成 中 间 代 码 code 的 首 指令 标记 后 ， 便 可 以 基于 首 指令 生成 流 图 。 
流 图 构造 涉及 的 关键 数据 结构 和 字段 如 下 : 





1 class Block 


{ | 

2 public: 

3 list<InterInst*> insts; / /指令 序列 
4 list<Block*>prevs,; / /前驱 
5 list<Block*>succs,; / /后继 


6 }; 
7 class DFG 





8 { 

9 public: 

10 Vector<InterInst*> codeList; / /中 间 代 码 
11 vector<Block*>blocks; // 所 有 基本 块 





其 中 Block 类 表示 基本 块 ，DFG 类 表示 流 图 。DFG 的 codeList 字 段 记 
录 构 造 流 图 的 中 间 代 码 ，blocks 字 段 记录 所 有 的 基本 块 。Block 的 insts 字 
段 记录 基本 块 内 所 有 的 指令 序列 ，prevs 字 段 记录 基本 块 的 所 有 前 驱 ， 即 
直接 到 达 该 基本 块 的 所 有 基本 块 ，succs 字 段 记录 基本 块 的 所 有 后 继 ， 即 
该 基本 块 直接 到 达 的 所 有 基本 块 。 基 于 这 样 的 设计 ， 我 们 分 两 步 实现 流 





图 的 构造 : 先 根据 首 指令 构造 基本 块 对 象 ， 再 确定 基本 块 对 象 间 的 前 驱 
和 后 继 关 系 。 


基本 块 对 象 的 构造 实现 如 下 : 





1 void DFG::createBlocks 


(){ 

2 vector<InterIinst*>tmpList; / /临时 到 
3 tmpList.push_back(codeList[0]); / /第 一 条 指 < 
4 for(unsigned int i=1;i<codeList.size();++i){ 

5 if(codeList[i]->isFirst())t{ 

6 blocks .push_back(new Block(tmpList)); / /添加 基本 块 
7 tmpList.clear(); 

8 } 

9 tmpList.push_back(codeList[i]); / /添加 指令 
10 

11 blocks.push back(new Block(tmpList)); / /最 后 的 基本 块 

12 } 








构造 基本 块 时 ， 使 用 tmpList 绥 存 每 个 基本 块 内 的 指令 序列 。 





第 3 行将 第 一 条 指令 (OP_ENTRY) 添加 到 tmpList 中 ， 该 指令 是 首 





第 4~10 行 处 理 后 继 的 指令 。 第 5 行 判 断 指令 如 条 是 首 指 令 ， 则 根据 


tmpList 内 绥 存 的 指令 创建 基本 其 ， 然 后 清空 mpList。 人 第 9 行将 新 的 首 指 


令 或 后 继 指 令 添 加 到 tmpList。 





第 11 行 添加 最 后 一 个 基本 块 Exit 〈 仅 包含 指令 OP EXIT) 。 


根据 tmpList 创 建 基本 块 的 流程 为 : 





1 Block::Block 


(vector<InterInst*>&codes)t{ 
2 for(unsigned int i=0;i<codes.size();++i){ 
3 codes[i]->block=this,; / /记录 指 令 所 在 的 基本 块 


4 insts.push_back(codes[i]); / /转换 为 





Block 的 insts 字 段 是 list<InterInst*> 类 型 ， 而 tmpList 是 
vector<InsterInst*> 类 型 ， 因 此 需要 逐个 添加 指令 到 insts 中 。 除 此 之 外 ， 
将 指令 的 block 字 段 设 置 为 当前 基本 块 ， 以 便于 通过 指令 直接 访问 基本 
块 。 


确定 基本 块 前 驱 和 后 继 关 系 的 过 程 称 为 连接 基本 块 ， 实 现 如 下 : 





1 void DFG::linkBlocks 


for (unsigned int i = 0; i < blocks.size(); ++1i){ 
InterInst*Jlast=blocks[I]->insts.back()， / /基本 块 量 


Cu 让 一 


4 if(last->isJmp()||last->isJcond()){ /7/ 跳 ; 


5 Block*tar=last->last->getTarget(). 


block; / /目标 基本 块 
6 blocks[i]->succs.push_back(tar); 
7 tar->prevs.push_back(blocks[i]); 
8 } 
9 if(!last->isJmp()&&i!=block.size()-1)f{ /V 顺序 
10 blocks[i]->succs.push_back(blocks[i+1])， / /后 继 
4 blocks[i+1]->prevs.push_back(blocks[i]); // 前 驱 
12 } 
13 } 
14 } 





第 2 行 遍 历 所 有 的 基本 块 ， 依 次 处 理 。 第 3 行 取出 基本 块 的 最 后 一 条 


指令 last。 


第 4 行 判 断 last 如 果 是 跳 转 指令 ， 则 取出 last 的 目标 指令 所 在 的 基本 
块 tar， 并 更 新 当前 基本 块 blocks 四 的 后 继 和 tar 的 前 驱 。 





第 7 行 判断 last 如 果 不 是 直接 跳 转 指令 ， 且 不 是 最 后 一 个 基本 块 〈 最 
后 一 个 基本 块 不 会 有 后 继 ) ， 则 更 新 当前 基本 块 blocks[i 的 后 继 和 紧 接 
着 下 个 基本 块 blocks[i+1] 的 前 驱 。 


经 过 createBlocks 和 linkBlocks 的 处 理 ，DFG 内 保存 了 流 图 的 完整 信 


4.1.2 ”数据 流 分 析 框 架 





基于 流 图 的 数据 流 分 析 是 面 癌 问题 的 ， 不 同 的 问题 有 要求， 其 数据 流 
分 析 的 实现 也 不 尽 相 同 。 例 如 ， 对 于 图 4-3 的 法 图 ， 假 定 需 要 根据 数据 
流 分 析 统 计 函 数 执行 时 最 少 执行 的 中 间 代 码 指令 数 〈 包 含 标签 指令 ) 。 








如 图 4-4 所 示 ， 统 计 最 少 执行 指令 个 数 需要 按照 代码 的 执行 顺序 进 
行 计算 ， 而 且 只 关注 基本 块 出 口 处 《out) 计算 的 指令 个 数 。 


初始 化 阶段 ， 每 个 基本 块 的 out 都 需要 一 个 初 值 。 对 于 Entry 入 口 
块 ， 其 初 值 为 1， 表 示 已 经 执行 了 OP_ENTRY 指 令 。 对 于 其 他 基本 块 ， 
初 值 为 最 大 正 整数 (inf) ， 这 是 因为 需要 计算 最 少 指令 个 数 。 





初始 化 完毕 后 ， 依 次 更 新 每 个 基本 块 〈 除 了 Entry 块 ) 的 out 值 ， 每 
次 处 理 完 所 有 基本 块 称 为 一 遍 处 理 。 每 一 遍 处 理 时 ， 总 是 按照 如 下 原则 
进行 计算 : 


B.in=min (所 有 B 的 前 驱 .out) 


B.out=B.in+B 的 指令 数 





思 
日 
L3=a+b 
® c=L3 
qoto Li 
© 
© 


图 4-4 ”最 少 指令 数 数据 流 分 析 


例如 第 一 避 处 理 时 ， 基 本 块 2 只 有 一 个 前 驱 基 本 块 9， 因 此 其 in 值 为 
基本 块 0 的 out 值 1。 基 本 块 2 包 含 4 条 指令 ， 因 此 基本 块 2 的 out 值 为 其 in 值 
加 上 基本 块 2 的 指令 数 ， 结 果 为 5。 而 对 于 基本 块 3， 其 有 两 个 前 驱 基 本 
块 2 和 4， 基 本 块 2 和 4 的 out 值 分 别 为 5 和 inf， 取 最 小 值 为 5。 基 本 块 3 包含 
2 条 指令 ， 因 此 基本 块 3 的 out 值 为 其 in 值 加 上 基本 块 3 的 指令 数 ， 结 果 为 
7。 按 照 这 样 的 方式 依次 计算 其 他 基本 块 的 值 ， 基 本 块 4 的 out 值 为 11， 
基本 块 5 的 out 值 为 8，Exit 块 的 out 值 为 9。 








由 于 第 一 避 处 理 后 ， 存 在 基本 块 的 out 值 被 更 新 的 情况 ， 需 要 第 二 


裔 处 理 。 而 第 二 裔 处 理 后 ， 所 有 基本 块 的 out 保 持 不 变 ， 因 此 终结 数据 
流 分 析 的 过 程 。 这 样 不 断 地 循环 进行 多 人 裔 处 理 ， 直 到 运算 结果 保持 稳定 
时 终止 计算 的 过 程 ， 称 为 迭代 不 动 点 计算 。 最 终 ，Exit 基 本 块 的 out 值 便 

最 少 执 行 指令 的 个 数 ， 即 9 条 ， 从 数据 流 图 中 不 难看 出 这 一 点 ， 执 行 
路 径 经 过 的 基本 块 为 1、2、3、5、6。 





从 上 述 例子 中 ， 可 以 看 出 数据 流 分 析 需 要 考虑 如 下 基本 要 素 : 


1) 数据 流 方 向 。 数 据 分 析 过 程 是 与 代码 执行 顺序 相同 〈 称 为 前 
向 ) 还 是 相反 ( 称 为 逆 疝 〉。 


2) 值 集 。 包 含 初 值 和 数据 流 分 析 中 使 用 的 值 。 就 初 值 而 言 ， 对 于 
前 向 数据 流 ， 即 Entry 块 的 out 初 值 和 其 他 基本 块 的 out 初 值 。 对 于 逆向 数 
气流 ， 则 是 Exit 的 in 值 和 其 他 基本 块 的 in 值 。 一 般 称 前 者 为 边界 集合 ， 
后 者 为 初 值 集合 。 





3) 交汇 函数 。 对 于 前 癌 数 据 流 ， 在 计算 基本 块 in 值 时 ， 如 果 基 本 
块 有 多 个 前 驱 ， 则 需要 提供 一 种 计算 方式 将 前 驱 的 out“ 合 并 。 对 于 逆向 
数据 流 ， 在 计算 基本 块 out 值 时 ， 如 果 基 本 块 有 多 个 后 继 ， 则 需要 提供 
一 种 计算 方式 将 后 继 的 in“ 合 并 ”。 








4) 传递 函数 。 对 于 前 同 数 据 流 ， 需 要 提供 一 种 计算 方式 将 基本 块 
的 in 值 转化 为 基本 块 out 值 。 对 于 前 问 数据 流 ， 则 需要 提供 一 种 计算 方式 
将 基本 块 的 out 值 转化 为 基本 块 的 in 值 。 





以 上 数据 流 分 析 的 基本 要么 是 所有 数据 流 分 析 所 共有 的 ， 一 般 称 大 
数据 流 分 析 框 染 。 数 据 流 分 析 框 架 是 数据 流 分 析 问 题 的 抽象 ， 与 具体 问 
题 无 天。 不 同 问题 的 数据 流 分 析 只 是 上 述 基本 要 素 不 同 。 


对 于 数据 流 分 析 框 架 ， 其 形式 化 定义 为 一 个 四 元 组 (D，V， 信 ， 
F) 。 其 中 DD 为 数据 流 分 析 的 方 辐 ， 分 为 前 回 和 逆向 。V 为 半 格 的 值 集 ， 
为 数据 流 信息 的 全 集 。 人 为 半 格 的 交汇 运算 ， 用 于 合并 不 同 路 径 的 数据 
注 信 息 。F 为 数据 法 图 基本 块 的 传递 函数 集合 ， 定 义 了 数据 流 信 息 经 过 
基本 块 后 的 变化 规划。 通常 使 用 数据 流 方程 表示 一 个 具体 的 数据 流 问 
题 ， 前 癌 和 逆向 数据 流 方程 的 基本 形式 如 下 : 








Entry.out—=VEntry ExXit.iN=VEyit 
B.out=T B.in=T 


前 向 送 站 ] B.ou A oes(s.in) 


B.in= \ peprec(B)(P.out) 
B.out=fp(B.in) B.in=fp(B.out) 


其 中 Entry 表 示 入 口 基 本 块 ，Exit 表 示 出 口 基 本 块 ，B 表 示 一 般 的 基 
本 块 。v 表 示 边 界 集合 ，T 表 示 初 值 集合 ， 它 们 都 是 半 格 值 集 V 的 元 系 。 
八 符 写 表示 交汇 运算 ，fp 表示 基本 块 B 的 传递 函数 。 对 于 一 个 具体 的 数 
据 流 问题 ， 只 需要 确定 数据 流 框 架 四 元 组 (D，V， 八 ，F) 的 值 ， 其 中 
值 集 V 包 含 边界 集合 v 和 初 值 集合 T。 例 如 上 述 求 最 少 执 行 指 令 数 的 问 
题 ， 其 数据 流 方 程 为 : 





Entry.out=1 


i B.out=Inf 
且 问 2 
B.n=minpeprec(B)(P-.out) 


B.out=B.in+B.num 


其 中 B.num 表 示 基 本 块 B 的 指令 个 数 。 由 此 可 以 确定 数据 法 框 染 的 
基本 要 素 的 值 : DD 为 前 向 、V 为 正 整数 集合 (边界 值 v 为 1， 初 值 T 为 最 大 
正 整数 inf) 、 人 为 最 小 值 运算 min、 人 她 为 计算 公式 B.out=B.in+B.num。 








根据 数据 流 方程 ， 很 容易 实现 数据 流 分 析 。 前 向 数据 流 分 析 实 现 的 
仿 代 码 如 下 : 





Entry.out=Ventry 


/ /初始化 
Entry .out 
for(B!=Entry)B.out=T / /初始 化 
B.out 
while(B.out changed) / /迭代 不 动 点 计算 
for(B!=Entry){ / /遍历 基本 块 

B 

B.in= 信 
peprec(B) 
(p.out) / /计算 
B.in 

B.out=fep 
(B.in) / /计算 





类 似 地 ， 逆 同 数 据 流 分 析 实 现 的 伪 代 码 如 下 : 





Exit .in=Vexit 


/ /初始 化 
Exit.in 
for (B!=Exit )B. in=T / /初始 化 
B.in 
while(B.in changed) 人/ 迭代 不 动 ; 
for(B!=Exit){ / /遍历 基本 
B 
B.out= 信 
Sesucc(B) 
(s.in) // 计 算 
B.out 
B.in=fe 
(B.out) // 计 算 
B.in 
} 





上 述 讨论 的 求 最 少 执 行 指令 数 的 数据 流 分 析 实 现 的 伪 代 码 如 下 : 





Entry .out=1 // 初 始 化 
Entry .out 
for(B!=Entry)B.out=-1 // 初 始 化 


B.out 
while(B.out changed) / /和 迭代 不 动 点 计算 


池 


for(B!=Entry)t{ 


B.in=minpeprec(B) 


B.out=B.in+B.num 


终 计算 结果 保存 在 Exit.out 内 。 


// 计 算 


/ /遍历 基本 块 


// 计 算 





4.2 ”中间 代码 优化 





中 间 代 码 优 化 算法 一 般 是 基于 数据 流 分 析 框 架 实 现 的 。 与 前 面 讨论 
的 数据 流 问 题 示例 不 同 的 是 ， 实 际 编译 系统 中 的 中 间 代 码 优 化 算法 的 数 
气流 框 以 的 基本 有 要么 内 容 更 多 样 ， 数 据 流 问题 描述 更 为 复 杀 。 我 们 使 用 
常量 传播 、 复 写 传播 和 变量 活跃 性 的 数据 流 分 析 ， 完 成 对 应 的 中 间 代 码 
优化 。 








4.2.1 常量 传播 


常量 传播 利用 编译 时 可 以 确定 的 变量 值 代 丛 变量 ， 拓 前 进行 表达 式 
求 值 ， 消 除 不 必要 的 运算 指令 ， 因 此 常量 传播 需要 确定 程序 的 任意 执行 
点 处 变量 的 音量 性 质 ， 即 变量 的 取 值 。 








图 4-5 ”整数 变量 取 值 半 格 





图 4-5 描 述 了 整数 变量 所 有 可 能 取 值 的 半 格 。 其 中 UNDEF 为 半 格 的 
最 大 值 ， 表 示 变 量 未 定义 〈 没 有 初始 化 ) ;: NAC 为 半 格 的 最 小 值 ， 表 示 
变量 确定 无 第 量 值 ， 其 他 值 为 变量 的 常量 值 。 半 格 最 大 下 界 运算 八 的 性 
质 为 (运算 符 八 满足 交换 律 〉: 

















1) 对 于 任意 值 v， 有 UNDEFAv=v， 且 NACAv=NAC。 


2) 对 于 第 量 值 c。 有 cA 人 Ac=c。 


3) 对 于 不 同 的 常量 值 cL、c2， 有 clL 人 Ac2=NAC。 








变量 取 值 半 格 的 最 大 下 界 运算 用 来 合并 来 源 于 程序 不 同 分 文 的 同一 
变量 的 取 值 ， 实 现 数据 流 分 析 的 交汇 运算 。 

我 们 根据 数据 流 分 析 框 架 四 要 素 讨 论 常量 传播 的 数据 流 分 析 框 架 。 
常量 传播 数据 流 分 析 框 架 定 义 为 : 





1) 数据 流 方 向 D: 常量 传播 需要 沿 着 代码 执行 的 方向 计算 变量 的 
值 ， 因 此 是 前 向 数据 流 。 


2) 值 集 V: 第 量 传播 需要 计算 函数 内 所 有 可 见 变 量 的 常量 值 ， 包 
括 全 局 变量 、 参 数 变量 和 局 部 变量 ， 因 此 常量 传播 的 数据 流 值 是 这 些 变 
量 值 的 集合 。 由 于 是 前 问 数 据 流 ， 因 此 边界 集合 vpnoy 的 值 是 所 有 可 见 
变量 初始 值 的 集合 。 而 初 值 集合 T 的 所 有 元 系 都 是 UNDEF， 即 将 变量 值 
默认 为 半 格 的 最 大 值 。 边 界 集合 与 初 值 集 合 都 是 值 集 V 的 元 素 ， 因 此 值 
集 V 为 可 见 变量 所 有 可 能 值 集合 的 全 集 。 


























1 ConstPropagation: :ConstPropagation 





2 (DFG*g,SymTab*t,vector<Var*>&paraVar) 

3 :dfg(g), tab(t)t 

4 vector<Var*>glbVars=tab->getGlbVars(); 

5 int index=0; 

6 for(unsigned int i=0;i<glbVars.size();++i){ / /全 局 变量 
7 Var*var=glbVars[i]; 

8 var->index=index++; 

9 vars.push_back(var); 

10 double val=0; 

11 if(!var->isBase())val=NAC; 

12 else if(!var->unInit())val=var->getVal(); 


13 boundVals .push_back(val); / /边界 值 


} 
15 for(unsigned int i=0;i<paraVar.size();++1i){ / /参数 变量 


16 Var*var=paraVar[i]; 

17 var->index=index++; 

18 vars.push_back(var); 

19 boundVals .push_back(NAC); / /边界 值 
20 } 

21 for(unsigned int i=0;i<dfg->codeList.size();++i){ / /局 部 变量 

22 if(dfg->codeList[i]->isDec()){ 

23 Var*var=dfg->codeList[i]->getArg1(); 

24 var->index=index++; 

25 vars.push_back(var); 

26 double val=UNDEF; 

27 if(!var->isBase())val=NAC; 

28 else if(!var->unInit())val=var->getVal(); 

29 boundVals.push_back(val); / /边界 值 
30 } 

31 } 

32 while(index--)initVals.push_back(UNDEF); / /初始 值 

33 } 





量 传播 的 构造 函数 ConstPropagation 计 算 了 变量 集合 vars、 边 界 集 
合 boundVals 和 初 值 集合 initVals。 其 中 vars 中 记录 的 变量 对 象 与 
boundVals 和 initVals 中 的 值 一 一 对 应 。 








第 4~14 行 处 理 全 局 变量 的 值 。 其 中 第 10~12 行 中 ， 非 基本 类 型 变量 
边界 值 为 NAC， 已 初始 化 的 基本 类 型 变量 边界 值 为 变量 初始 值 ， 未 初始 
化 的 全 局 变量 的 初 值 为 0， 因 此 边界 值 为 0。 





第 15~20 行 处 理 参 数 变 量 的 值 ， 孙 数 的 参数 变量 由 函数 调用 者 传递 


的 实际 参数 决定 。 我 们 不 考虑 过 程 间 的 代码 优化 问题 ， 无 法 确定 实际 参 
数 的 第 量 性 质 ， 因 此 保守 地 认为 参数 变量 的 边界 值 为 NAC。 





第 21~31 行 处 理 局 部 变量 的 值 ， 局 部 变量 都 是 使 用 OP_DEC 声 明 
的 ， 通 过 扫描 中 间 代 码 获得 局 部 变量 的 定义 信息 。 第 26~28 行 中 ， 对 局 
部 变量 的 处 理 与 全 局 变量 类 似 ， 不 过 未 初始 化 局 部 变量 的 边界 值 为 
UNDEF. 














第 32 行 将 初 值 集合 元 素 全 部 初始 化 为 UNDEF。 


3) 交汇 运算 入 : 前 面 讨论 了 整数 取 值 半 格 的 数值 交汇 运算 ， 常 量 
传播 交汇 运算 的 对 象 是 变量 值 集合 。 对 于 变量 值 集合 A、B， 令 
C=A 八 B， 那 么 对 于 值 集合 的 任意 索引 i， 总 有 C; =A; 人 Bi 〈 其 中 运算 符 

八 为 整数 取 值 半 格 的 交汇 运算 )。 














1 double ConstPropagation::join 


Soe left,double right) 

if(left==NAC] |right==NAC)return NAC; //NACA 人 
V=V 
3 else if(left==UNDEF)return right //UNDEFA^ 
V=UNDEF 

else if(right==UNDEF)return left,; 
5 else if(left==right)return left; /VCcA 
C=C 
6 else return NAC ; // 
C2=NAC 


7 } 
8 void ConstPropagation::join 


(Block*block){ 
9 list<Block*>& prevs=block->prevs,; / /前 驱 





10 Vector<double>& in=block->inVals,; //in 
11 for(unsigned int i=0;i<in.size();++i){ // 处 理 
in 集 合 

12 double val=UNDEF; 

13 for (list<Block*>::iterator j=prevs.begin(); 

14 j!=prevs.end();++j){ 

15 val=join 

(val, (*j)->outVvals[i]); // 取 出 前 驱 

OUt 交 并 

16 有 

17 in[i]=val; 

18 

19 } 











第 1~7 行 的 双 参 数 join 函 数 处 理 变 量 值 的 交汇 运算 ， 运 算 规 则 与 变量 
取 值 半 格 的 交汇 运算 特性 一 致 。 


第 8~19 行 的 单 参数 join 函数 处 理 计算 基本 块 的 ip 集合 时 的 交汇 运 
算 。 第 11 行 依次 计算 让 集合 的 每 一 个 元 素 的 值 ， 第 13~14 行 处 理 基 本 块 
block 的 每 一 个 前 驱 ， 第 15 行 取出 每 一 个 前 驱 基 本 块 的 out 集 合 对 应 的 索 
引 值 ， 并 调用 双 参 数 join 函数 进行 交汇 运算 ， 第 17 行 将 运算 结果 保存 到 
基本 块 的 ij 集 合 。 


4) 传递 函数 集合 F: 对 于 基本 块 B 的 传递 函数 fh ， 有 B.out=fp 








(B.in〉。 由 于 我 们 更 关心 每 条 指令 执行 前 后 变量 的 常量 性 质 ， 因 此 将 
每 条 指令 视 为 一 个 基本 块 ， 由 此 原 基 本 块 B 的 传递 函数 便 是 指令 传递 函 
数 f, 的 复合 。 对 于 基本 块 的 指令 s， 有 s.out=f。(s.in〉。 其 中 ， 对 于 任意 
可 见 变量 x， 其 对 应 的 常量 性 质 分 别 为 s.out[x] 和 s.in[x]。 指 令 传递 函数 f, 
的 定义 如 下 。 








(如 果 指 令 s 形 式 为 x=c，c 为 常量 ， 则 s.out[x]=c。 
如 果 指 令 s 形 式 为 x<=y @z， 旬 为 通用 运算 符 。 分 为 以 下 情况 : 
a. 奉 s.in[y]=cl1，s.in[z]=c2，cl、c2 为 常量 ， 则 s.out[x]=c1 人 @c2; 
b. 奉 s.in[y]=NAC 或 s.in[z]=NAC， 则 s.out[x]=NAC; 


c. 其 他 情况 ，s.out[x]=UNDEF。 





(3 如果 指 令 s 形 式 为 参数 传递 ， 且 参数 为 指针 类 型 ， 则 对 于 任意 可 
见 变 量 v，s.out[v]=NAC。 我 们 保守 地 认为 函数 会 通过 指针 参数 修改 所 
有 可 见 变 量 。 








则 如 果 指 令 s 形 式 为 *x=y， 则 对 于 任意 可 见 变量 v，s.out[vV]=NAC。 
我 们 保守 地 认为 对 指针 内 容 的 修改 会 影响 所 有 可 见 变量 。 








(如 果 指 令 s 形 式 为 x=*y， 则 s.out[x]=NAC。 








@ 如 果 指 令 s 形 式 为 call fun， 则 对 于 任意 全 局 变量 g， 











s.out[g]=NAC。 我 们 保守 地 认为 函数 调用 修改 任意 全 局 变量 。 








@ 如 果 指 令 s 形 式 为 x=call fun， 则 对 于 任意 全 局 变量 g， 
Ss.oOut[g]=NAC 且 s.out[X]=NAC。 








@ 除 了 以 上 情况 ， 对 于 任意 可 见 变 量 v，s.out[v]=s.in[v]。 


指令 传递 函数 f 的 实现 如 下 : 





1 void ConstPropagation::translate 


(InterIinst*inst, 

2 vector<double>& in,vector<double>& out ){ 

3 Oout=in; 

4 Operator op=inst->getop(); / /运算 答 
5 Var*result=inst->getResult(); / /结果 

6 Var*arg1l=inst->getArg1(); / /参数 

1 

7 Var*arg2=inst->getArg2(); / /参数 

2 

8 if(inst->isExpr())t{ 

X=y+z 

9 double tmp; 

out[x] 

10 if(op==0P_AS| |op==0P_NEG| |op==0P_NOT){ // 一 元 运算 

11 if(arg1i->isLiteral()) //ir 
12 tmp=arg1i->getVal(); 

13 else 

14 tmp=in[arg1->index]; 

15 if(tmp!=UNDEF&&tmp1=NAC){ 


16 if(op==OP_NEG)tmp=-tmp; 


17 else if(op==0P_NOT)tmp=!tmp; 


18 } 

19 } 

20 else if(op>=0P_ADD&&op<=0P_OR){ 

21 double 1p,rp; 

22 if(arg1i->isLiteral()) 

23 1p=arg1->getVal( ); 

24 else 

25 1p=in[argi->index]; 

26 if(arg2->isLiteral()) 

27 if()rp=arg2->getVal(); 

28 else 

29 rp=in[arg2->index]; 

30 if(1p==NAC| |rp==NAC) tmp=NAC; 

31 else if(1p==UNDEF||rp==UNDEF)tmp=UNDEF; 
32 elsef 

33 int left=1lp,right=rp; 

34 if(op==0P_ADD)tmp=left+right; 

35 else if(op==0P_SUB)tmp=l]left-right; 
36 else if(op==0P_MUL)tmp=Jeft*right; 
37 else If(op==OP_DIV ) 

38 {if(!right)tmp=NAC;else tmp=]eft/right;} 
39 else if(op==0P_MOD) 

40 {if(!right)tmp=NAC;else tmp=]eft%right;} 
41 else if(op==0P_GT)tmp=left>right,; 
42 else if(op==0P_GE)tmp=left>=right; 
43 else if(op==0P_LT)tmp=left<right,; 
44 else if(op==0P_LE)tmp=left<=right; 
45 else if(op==0P_EQU)tmp=left==right; 
46 else if(op==0P_NE)tmp=left!=right; 
47 else if(op==0P_AND)tmp=left&é&right,; 
48 else if(op==0P_OR)tmp=left||right; 
49 } 

50 

51 else if(op==OP_GET ) 

52 tmp=NAC; 

53 out[result->index]=tmp; 

54 } 

55 else if(op==0OP_SETI|| 

56 op==0P_ARG && larg1->isBase()){ 

57 for(unsigned int i=0;i<out.size();++i) 

58 out[i]=NAC; 

59 } 

60 else if(op==OP_PROC){ 

61 for(unsigned int i=0;i<glbVars.size();++i) 

62 out[glbVvars[i]->index]=NAC; 

63 } 

64 else if(op==OP_CALL){ 

65 for(unsigned int i=0;i<glbVars.size();++i) 

66 out[glbVars[i]->index]=NAC; 

67 out[result->index]=NAC; 

68 } 


69 inst->inVvals=in; 
70 inst->outVals=out; 
71 } 


//ir 


//ir 


//N/ 


//UNDEF 


// 


//*x: 
//arg ptr 


//CE 
//out[g]: 
//X: 


//out[c 
/Vol 








第 3 行 默 认 将 in 集合 传递 给 out 集 合 ， 后 面 根据 判 断 特 殊 情 况 指令 再 


修改 out。 


第 4~7 行 获取 四 元 式 的 基本 要 素 。 第 8~54 行 处 理 形 如 x=c 和 x=y 人 @z 的 
表达 式 。 第 55~68 行 处 理 其 他 特殊 的 指令 。69~71 行 将 计算 的 ph 和 out 集 合 
保存 到 指令 对 象 。 


第 10~19 行 处 理 一 元 运算 表达 式 赋值 、 取 人 负 、 取 反 。 第 11~14 行 取出 
操作 数 的 常量 值 ， 如 果 arg1l 是 常量 则 调用 getVal 取 出 常量 值 记 录 到 tmp， 
否则 从 in 集 合 取 出 常量 值 。 第 15~18 行 根据 操作 符 计算 表达 式 结 


第 20~50 行 处 理 二 元 运算 表达 式 。 第 22~29 行 取出 两 个 操作 数 的 常量 
值 ， 分 别 保存 到 lp 和 rp。 第 30 行 表示 有 操作 数 常 量 值 为 NAC， 因 此 计算 
结果 tmp 为 NAC。 第 31 行 表示 有 操作 数 常 量 值 为 UNDEF， 因 此 计算 结果 
为 UNDEF。 第 32 行 表示 操作 数 都 是 常量 ， 需 要 根据 操作 符 计算 表达 式 


a 
结 





第 51~52 行 处 理 形 如 x=*y 的 表达 式 ， 因 为 无 法 确定 *y 的 值 ， 所 以 x 的 
常量 值 为 NAC。 


第 53 行 将 计算 的 常量 值 保存 到 out 集 合 。 


第 55~59 行 处 理 参数 表达 式 和 形 如 *x=y 的 表达 式 ， 其 中 第 55~56 行 表 
明 若 表达 式 是 指针 运算 赋值 形式 或 参数 为 非 基本 类 型 ， 则 将 out 集 合 所 
有 元 素 置 为 NAC。 





第 60~68 处 理 函 数 调用 ，OP_PROC 和 OP_CALL 形 式 的 函数 调用 都 
会 将 全 局 变量 对 应 的 out 集 合 元 素 置 为 NAC， 而 且 OP_CALL 函 数 调 用 会 
咎 函数 返回 值 对 应 的 out 集 合 元 素 置 为 NAC。 


i 


基本 块 传递 函数 ft 的 实现 为 : 





1 bool ConstPropagation::translate 


(Block*block){ 

2 vector<double>in=block->inVvals; //in 

3 vector<double>out=in; /Vol 
4 for(list<InterIinst*>::iterator i=block->insts.begin(); 

5 i!=block->insts.end();++i){ // 处 理 
6 InterInst*inst=*i,; 

7 translate 

(inst, in,out); / /指令 传 递 函 数 

8 in=out; 

in 

9 } 

10 bool flag=false; // 


11 for(unsigned int i=0;i<out.size();++i){ 


12 if(block->outVals[i]!=out[i])t{ 
13 flag=true,; 

14 break; 

15 

16 


} 
17 block->outVals=out,; 


out 
18 return flag; 
19 } 





第 2~3 行 使 用 基本 块 的 in 集 合 初 始 化 临时 变量 in 和 out， 作 为 指令 传 


第 4 行 允 历 基本 块 的 指令 。 第 7 行 调用 指令 传递 函数 更 新 out， 并 将 in 


和 out 保 存 到 指令 对 象 。 第 8 行将 当前 指令 的 out 集 合作 为 下 一 条 指令 的 in 
集合 继续 计算 。 


月 .不 
是 否 


否 发 生 了 变化 。 


第 10~16 行 在 基本 块 数据 流 信息 传递 结束 后 ， 判 断 基 本 英 的 out 集 合 


第 17 行 将 新 计算 的 out 集 合 更 新 到 基本 块 的 out 集 合 outVals 中 。 


第 18 行 返回 传递 函数 执行 后 基本 块 的 出 口 集合 是 人 否 发 生变 化 。 


根据 以 上 讨论 的 第 量 传播 的 数据 流 分 析 框 架 的 实现 ， 实 现 癌 量 传播 


的 数据 流 分 析 如 下 : 





1 


‘OO 


10 


void ConstPropagation::analyse 


dfg->blocks[0]->outVals=boundVals; //Entry.out 

for(unsigned int i=1;i<dfg->blocks.size();++i) 
dfg->blocks[i]->outVals=initVals,; //B.o! 

bool outChange=true,; 

while(outChange){ / 


outchange=false; 
for(unsigned int i=1;i<dfg->blocks.size();++i){ 
join(dfg->blocks[i]); // 交 : 


if(translate(dfg->blocks[i])) //1 


outChange=true; 


第 2~4 行 分 别 使 用 边界 集合 boundVals 和 初 值 集合 initvals 初 始 化 基本 
块 的 out 集 合 outVals。 





第 6~13 行 执行 迭代 不 动 点 计算 ， 其 中 第 8~12 行 执行 数据 流 方向 的 交 
汇 运 算 join 和 传递 函数 translate。 当 所 有 基本 块 的 传递 函数 返回 值 都 是 
false 时 ， 即 所 有 基本 块 的 out 信 息 都 不 再 变化 ， 此 时 停止 迭代 计算 。 


使 用 analyse 进 行 常 量 传 播 数据 流 分 析 结 束 后 ， 所 有 的 指令 对 象 内 都 
保存 了 执行 指令 前 后 所 有 可 见 变 量 的 常量 性 质 ， 即 inVals 和 outVals。 根 
据 这 两 个 集合 的 信息 ， 可 以 对 中 间 代 码 指 令 进行 简化 。 











如 图 4-6 所 示 ， 中 间 代 码 经 过 音量 传播 数据 流 分 析 后 ， 产 生 了 对 应 
的 数据 流 信息 。 图 中 给 出 了 第 量 传播 优化 后 的 中 间 代 码 ， 和 常量 传播 的 代 
码 优化 规则 如 下 : 


1) 常量 合并 。 对 于 指令 s， 其 四 元 式 为 result=arg1 @arg2， 如 果 
s.outVals[result] 是 常量 ce， 则 使 用 指令 result=c 蔡 换 原 指令 。 图 中 指 


邻 “a=1” b=a+2”b=b+1” 按 此 规则 被 蔡 换 为 “a=1”b=3”“b=4” 


2) 代数 化 简 。 对 于 指令 s， 其 四 元 式 为 result=arg1 @arg2， 如 果 arg1 
或 arg2 有 一 个 是 常量 ， 且 满足 运算 符 四 的 代数 化 简 规 则 ， 则 将 原 指令 蔡 
换 为 更 精简 的 指令 。 比 如 表达 式 “a=b+0”"， 可 以 直接 被 蔡 换 为 “a=b”。 图 
4-6 中 指令 “b=a*c” 第 量 传播 优化 后 形式 为 “b=1*c”， 因 此 可 以 化 简 
为 “b=c”。 我 们 实现 的 代数 化 简 规 则 如 表 4-1 所 示 。 








inVals outVals 






a=1 
b=a+2 
if (lb)gotoL 


b=b+1 
L: 


b=a*c 





NAC NAC 


























b=a*ec 1 NAC NAC 
1 NAC NAC 
中 间 代 码 流 图 数据 流 信息 优化 后 中 间 代 码 
二 y 
图 4-6 ”常量 传播 
从 站 AAA 
表 4-1 代数 化 简 规 则 
原 表达 式 代数 化 简 原 表达 式 代数 化 简 
a=0+b a=b a=0$b a=0 
a=b+0 a=b a=b%®1l a=0 
a=0—b a=—b a=0&&b a=0 
a=b—0 a=b a=b&&0 a=0 
a=0*Db a=0 a=l]&&b a= (b!=0) 
a=b*0 a=0 a=b&&]1 a= (b!=0) 
已 = a=b a=0| |b a= (b!=0) 
a=b*1 a=b a=b||0 a= (b!=0) 
a=0/b a=0 a=1| |b a=1 
a=b/1 a=b a=b||1 a=1 














3) 不 可 达 代 码 消 除 。 对 于 条 件 跳 转 指令 s， 其 形式 为 if (cond) 
goto LL， 如果 cond 是 常量 ， 则 需要 根据 cond 条 件 消除 不 可 能 执行 的 代码 
分 支 。 如 果 cond 不 等 于 0， 则 将 指令 蔡 换 为 无 条 件 跳 转 指 令 jmp L， 并 解 
除 跳 转 指 令 所 在 基本 块 与 后 继 基 本 块 的 关联 。 如 果 cond 等 于 0， 则 删除 
条 件 跳 转 指 令 ， 并 解除 跳 转 指令 所 在 基本 块 与 目标 基本 块 的 关联 。 图 4- 
6 中 指令 “if(! b)goto L” 常 量 传 播 后 形式 为 “ff 0(! 4) gotoL”， 该 指令 











不 可 能 执行 ， 因 此 需要 删除 ， 并 解除 到 跳 转 目标 基本 块 的 关联 。 


按照 上 述 优化 规则 ， 第 量 合并 与 代数 化 简 实 现 如 下 : 





1 void ConstPropagation: :algebraSimp1Ify 


(){ 

2 for (unsigned int j=0;j<dfg->blocks.size();++j){ 

3 list<InterInst*>::iterator i; 

4 for(i=dfg->blocks[j]->insts.begin(); 

5 i!l=dfg->blocks[j]->insts.end();++i)f{ 

6 InterInst*inst=*1i; 

7 Operator op=inst->getop(); 

8 if(inst->isExpr())t 

9 double rs; 

10 Var*result=inst->getResult(); 

11 Var*arg1l=inst->getArg1(); 

12 Var*arg2=inst->getArg2(); 

13 rs=inst->outVals[result->index]; 

14 if(rs!=UNDEF&&rs!=NAC){ / /常量 合并 

15 Var*newVar=new Var((int)rs); 

16 tab->addVar (newVar ) ; 

17 inst->replace(OP._AS,result,newVar); 

18 } 

19 else if(op>=0P_ADD&&op<=O0P_OR&& / /代数 化 简 

20 1 (op==0P_AS| |op==0P_NEG| |op==OP_NOT) ){ 

21 double 1p,rp; 

22 if(arg1i->isLiteral()) 

23 1p=arg1->getVal( ); 

24 else 

25 lJp=inst->inVals[argi->index]; 
26 if(arg2->isLiteral()) 

27 rp=arg2->getVal(); 

28 else 

29 rp=inst->inVals[arg2->index]; 
30 int left,right; 

31 bool dol=false, dor=false,; 

32 if(1p!=UNDEF&&1p!=NAC) 

33 {left=]p;dol=true;} 

34 else if(rp!=UNDEF&&rp!=NAC) 

35 {right=rp;dor=true;} 

36 else continue; 

37 Var* newArg1=NULL ， 

38 Var* newArg2=NULL 

39 Operator newOp=0OP_AS ; 

40 if(op==OP_ADD){ /) 
41 if(dol&&left==0)newArg1=arg2; 
42 if(dor&&right==0)newArg1i=arg1; 
43 } 

44 else if(op==OP_SUB){ //2: 
45 if(dol&&left==0) 


46 {newOp=O0P_NEG; newArg1l=arg2;} 


else 


if(dor&&right==0)newArg1i=arg1; 
if(op==OP_MUL){ 


If(dol&&left==0||dor&&right==0) 
newArg1=SymTab: :zero 

If(dol&&left==1)newArg1=arg2: 

If(dor&&right==1)newArg1=arg1， 


} 
else if(op==OP_DIV){ //2: 
If(dol&&left==0)newArg1=SymTab: :zero; 
if(dor&&right==1)newArg1i=arg1; 
} 
else if(op==OP_MOD){ //2: 
If(dol&&left==0||dor&&right==1) 
newArg1=SymTab : :zero 
} 
else if(op==OP_AND){ 
If(dol&&left==0||dor&&right==0) 
newArg1=SymTab: :zero; 
if(dol&&left!=0)f{ 
newOp=OP_NE ， 
newArg1=arg2， 
newArg2=SymTab : :zero; 
if(dor&&right!=0){ //zZ=X! 
NewOp=O0P_NE,; 
newArg1=arg1， 
newArg2=SymTab : :zero; 
} 
else if(op==0OP_OR){ 
if(dol&é&1left!=0||dor&é&right!=0) 
newArg1l=SymTab: :one; 
if(dol&&left==0){ 
newOp=OP_NE ， 
newArg1=arg2， 
newArg2=SymTab : :zero; 
} 
if(dor&&right==0){ //zZ=X! 
newOp=OP_NE， 
newArg1=arg1， 
newArg2=SymTab : :zero; 
} 
} 
if(newArg1) 
inst->replace(newOp,result, 
newArg1, newArg2); 
elsef{ 


if(dol){ 
newArg1=new Var(left); 
tab->addVar (newArg1); 
newArg2=arg2; 


} 

else if(dor)t 
newArg2=new Var(right); 
tab->addVar (newArg2); 
newArg1=arg1， 


108 inst->replace(op,result, 
109 newArg1, newArg2); 
110 } 

111 } 

112 } 

113 else if(op==0P_ARG||op==OP_RETV){ 

114 Var*arg1l=inst->getArg1(); 

115 if(!arg1i->isLiteral())t{ 

116 double rs=inst->outVals[arg1i->index]; 
117 if(rs!=UNDEF&&rs!=NAC){ 

118 Var*newVar=new Var((int)rs); 
119 tab->addVar (newVar ) ; 

120 inst->setArg1(newVar); 

121 } 

122 } 

123 } 

124 } 

125 } 

126 } 


















































第 2~7 行 取出 流 图 基本 块 的 每 一 条 指令 进行 处 理 。 第 8~112 行 处 理 表 达 式 的 常量 传播 。 第 113~123 行 处 理 参 数 
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元 式 的 基本 元 素 。 第 13~18 行 处 理 常量 合并 ， 将 result 的 常量 值 取出 存 入 rs 变量 














将 原 指 






































第 19~111 行 处 理 代 数 化 简 。 第 21~29 行 将 arg1 和 arg2 的 常量 值 取 昌 





上 二 


到 lp 和 rp。 第 30~36 行 判定 哪个 操作 数 ; 












































第 37~39 行 使 用 newArg1 和 newArg2 记 录 新 的 操作 数 ， 使 用 new0p 记 录 新 的 操作 符 ， 其 初 人 


Ho 





为 赋值 运算 符 OP_ 











TI 























第 40~43 行 处 理 加 法 操作 的 代数 化 简 ， 若 有 操作 数 为 9， 便 将 另 一 个 操作 数 作为 newArg1。 其 他 算术 运算 的 代 




















ul 

















第 64~78 行 处 理 逻 辑 与 操作 数 的 代数 化 简 。 若 有 操作 数 为 0， 便 将 newArg1 记 录 为 SymTab: : zero， 表 示 表 i 





常量 传播 的 不 可 达 代 码 消 除 算法 如 下 : 





1 void ConstPropagation::condJmpOpt 


a 
~ 


list<InterInst*>::iterator i,k; 
for(i=dfg->blocks[j]->insts.begin(),k=i; 
i!=dfg->blocks[j]->insts.end();i=k){ 
中 人 区 
InterInst*inst=*i,; 
if(inst->isJcond()){ 


for (unsigned int j = 0; j < dfg->blocks.size(); ++j){ 


co DO 上 ON 一 


9 Operator op=inst->getop(); 


10 InterInst*tar=inst->getTarget(); 

11 Var*arg1i=inst->getArg1(); 

12 double cond; 

13 if(arg1i->isLiteral())cond=arg1->getVal(); 

14 else cond=inst->inVals[arg1->index]; 

15 if(cond==NAC| |cond==UNDEF )continue; 

16 if(op==0P_JT&&cond==0| |op==0P_JF&&cond!=0){ 

17 inst->block->insts.remove(inst); 

18 if(dfg->blocks[j+1]!=tar->block) 

19 } dfg->delLink(inst->block, tar->block); 
20 

21 else if(op==0P_JT&&cond!=0||op==0P_JF&&cond==0){ 
22 inst->replace(OP_JMP, tar); 

23 if(dfg->blocks[j+1]!=tar->block) 

24 } dfg->delLink(inst->block, dfg->blocks[j+1]); 
25 

26 } 

27 } 

28 

29 } 
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第 2~6 行 遍历 流 
































第 9~11 行 取出 四 元 式 的 基本 元 素 。 第 12~15 行 取出 条 件 变量 的 常量 值 ， 保 存 到 cond。 














二 本 块 的 所 有 指令 ， 连 代 器 Kk 始终 指向 迭代 器 i 的 下 一 个 位 置 ， 以 防止 遍历 过 程 删 除 i 指 向 的 


第 16~20 行 处 理 跳 转 条 件 不 满足 的 情况 。 首 先 删 除 跳 转 指令 ， 然 后 调用 delLink 解 除 当前 指令 所 在 基本 块 与 跳 
































EE 





TT 





第 21~25 行 处 理 跳 转 条 伯 





总 是 满足 的 情况 。 首 先 将 跳 转 指令 蔡 换 为 无 条 件 跳 转 指令 OP_JMP， 然 后 
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函数 delLink 用 





< H 
车 
玲 
副 
> 
[un 


本 块 之 间 的 关联 ， 需 要 对 流 











进行 操作 。 








1 void DFG::delLink 


(Block*begin,Block*end){ 

2 if(begin){ 

3 begin->succs.remove(end); 
4 end->prevs.remove(begin); 
5 
6 


} odetend) // 递 归 解 除 关 联 


7 

8 void DFG::release 

(Block*block){ 

9 if(!reachable(block)){ // 块 不 可 达 

10 list<Block*> delList; 

11 list<Block*>::iterator i; 

12 for(i=block->succs.begin();i!=block->succs.end();++i)f{ 

13 delList.push_back(*i); // 记 录 所 有 后 继 
14 


} 
15 for(i=delList.begin();i!=delList.end();++i){ 





四 


用 delLir 


16 block->succs.remove(*i); 
17 (*i)->prevs.remove(block); 


19 for(i=delList.begin();i!=delList.end();++i){ 


20 release(*1i); 


24 bool DFG: :reachable 


(Block*block){ 

25 resetVisit(); 

26 return __reachable(block); 
27 } 


28 bool DFG::_ reachable 


(Block*block){ 
29 if(block==blocks[0])return true; 


// 到 达 入 


// 递 归 处 理 后 继 

















30 else if(block->visited)return false; // 访 问 过 了 

31 block->visited=true; // 设 定 访问 标记 
32 bool flag=false; 

33 list<Block*>::iterator i; 

34 for(i=block->prevs.begin();i!=block->prevs.end();++i)f{ 

35 Block*prev=*i; // 每 个 前 驱 
36 flag= reachable(prev); // 递 归 测 试 
37 if(flag)break; 

38 

39 return flag; 

40 } 

















第 1~7 行 的 delLink 函 数 删 除 基 本 块 begin 到 end 的 关联 ， 即 将 end 从 begin 的 后 继 中 删除 ， 将 begin 从 end 部 

















第 8~23 行 的 release 函 数 用 于 处 理 基本 块 不 可 达 时 删除 7 





























阁 























效 的 基本 块 关联 。 匈 











9 行 1， 





几 用 reachable 测 试 基本 二 


第 28~40 行 的 _reachable 函 数 用 于 测试 基本 块 block 是 否 从 Entry 块 开始 可 达 。 第 29 行 表示 block 就 是 En 


4.2.2 复写 传播 


如 宁 说 利和 量 传播 是 将 癌 量 传递 到 表达 式 的 操作 数 中 ， 那 么 复写 传播 
则 是 将 变量 传递 到 表达 式 的 操作 数 中 。 复 写 传 播 分 析 变 量 值 的 复制 轨 
迹 ， 以 发 现 等 值 变量 集合 ， 并 在 表达 陈 中 尽 可 能 使 用 同一 个 变量 代 准 原 
本 表达 式 的 操作 数 。 例 如 中 间 代 码 


b=ac=bd=c+1 


其 中 “b=a”“c=b” 称 为 复写 表达 式 ， 经 过 复写 传播 后 ， 上 述 代 码 被 转化 





b=ac=ad=a+1 








我 们 发 现 原 中 间 代 码 为 了 计算 变量 d 的 值 ， 不 得 不 依次 计算 变量 b 和 
c 的 值 。 但 是 ， 经 过 复写 传播 的 处 理 ， 使 得 对 变量 b 和 c 的 计算 变 得 元 
余 ， 使 之 成 为 无 效 代码 〈 死 代码 ) 。 死 代码 消除 会 将 该 类 代码 从 中 间 代 
码 中 删除 ， 因 此 复写 传播 从 一 定 程度 上 来 说 是 为 死 代 码 消除 服务 的 。 








对 于 复写 传播 ， 其 数据 流 分 析 框 以 定义 如 下 。 


1) 数据 流 方 向 D: 复写 传播 需要 沿 独 代码 执行 的 方向 分 析 复 写 表 
达 式 ， 因 此 是 前 同 数据 流 。 


2) 值 集 V: 复写 传播 分 析 的 是 代码 中 的 复写 表达 式 ， 因 此 复写 传 
播 的 数据 流 值 是 复写 表达 式 集合 。 由 于 是 前 问 数 据 流 ， 因 此 边界 集合 
vEntry 的 值 为 空 集 。 而 初 值 集合 T 为 所 有 复写 表达 式 的 全 集 。 边 界 集合 
与 初 值 集合 都 是 值 集 V 的 元 素 ， 因 此 值 集 V 为 复写 表达 式 的 需 集 。 











3) 交汇 运算 和 人: 当 基 本 块 具有 多 个 前 驱 时 ， 基 本 块 入 口 处 的 复写 
表达 式 集合 为 前 驱 集 合 出 口 处 复写 表达 式 集合 的 交集 ， 因 此 交汇 运算 为 


合 交 运算 n。 


4) 传递 函数 : 与 常量 传播 的 传递 函数 类 似 ， 这 里 仍 将 指令 看 作 独 
立 的 基本 块 。 复 写 表达 式 的 一 般 形式 为 “x=y”， 与 赋值 表达 式 的 形式 完 
全 相同 。 如 果 表 达 式 运算 修改 了 x 或 y， 称 为 指令 杀 死 了 复写 表达 
式 “x=y”。 对 于 赋值 表达 式 “x=y”， 称 为 指令 产生 了 复写 表达 式 “x=y”， 
同时 该 指令 杀 死 了 包含 x 的 复写 表达 式 。 指 令 产生 的 复写 表达 式 集合 记 
为 s.gen， 指 令 杀 死 的 复写 表达 式 集合 记 为 s.kil， 因 此 指令 的 传递 函数 fs 
定义 为 : s.out= (s.in-s.kil) Us.gen〈 其 中 “为 集合 差 集运 算 ，U 为 集 
合并 集运 算 ) 。 


复写 传播 初始 化 阶段 ， 需 要 统计 所 有 的 复写 表达 式 ， 并 计算 指令 的 
gen 和 kill 集 合 。 


1 _ CopyPropagation: :CopyPropagation 


(DFG*g):dfg(g)t 
2 dfg->toCode(optCode); 
3 int j=0; 


4 for(list<InterIinst*>::iterator i=optCode.begin(); 

5 i!l=optCode.end();++i){ 

6 InterInst*inst=*i,; 

7 Operator op=inst->getop()， 

8 if(op==0P_AS)copyExpr.push_back(inst); 

9 

10 U.init(copyExpr.size(),1); 

11 E.init(copyExpr.size( ),0); 

12 G.init(copyExpr.size( ),0); 

13 vector<Var*>glbVars=tab->getGlbVars(); 

14 for(unsigned int i=0;i<glbVars.size();++i){ 

15 for(unsigned int j=0;j<copyExpr.size();j++) 

16 if(glbvars[i]==copyExpr[j]->getResult() 

17 |1glbvars[i]==copyExpr[j]->getArg1()) 

18 G.set(i); 

19 

20 for(list<InterIinst*>::iterator i=optCode.begin(); 

21 i!=optCode.end();++i){ 

22 InterInst*inst=*i,; 

23 inst->copyInfo.gen=E; 

24 inst->copyInfo.Kkill=E; 

25 Var*rs=inst->getResult(); 

26 Operator op=inst->getOop(); 

27 if(op==O0P_SET| |op==OP_ARG&&!inst->getArg1()->isBase( )) 
28 inst->copyInfo.kill=U; 

29 else if(op==OP_PROC| |op==O0P_CALL) 

30 inst->copyInfo.kill=6; 

31 if(op>=0P_AS&&0op<=0P_OR| |op==0P_GET| |op==0P_CALL){ 
32 for(unsigned int i=0;i<copyExpr.size();i++){ 
33 if(rs==copyExpr[i]->getResult() 

34 | 1rs==copyExpr[i]->getArg1()) 
35 inst->copyInfo.kil]l.set(i); 
36 if(copyExpr[i]==inst) 

37 inst->copyInfo.gen.set(i); 

38 } 

39 } 

40 

41 } 





第 2~9 行 从 流 图 中 提取 所 有 的 中 间 代 码 到 optCode， 并 过 历 中 间 代 
码 ， 记 录 所 有 赋值 运算 表达 式 ， 即 复写 表达 式 到 copyExpr。 








第 10~19 行 初始 化 变量 U、E 和 G， 它 们 分 别 表示 复写 表达 式 的 全 
集 、 空 集 和 包含 全 局 变量 的 复写 表达 式 集合 。 这 些 集 合 的 大 小 与 
copyExpr 大 小 相等 ， 集 合 元 素 取 值 为 0 或 1， 表 示 copyExpr 对 应 索引 处 的 
复写 表达 式 是 否 存 在 。 其 中 第 18 行 的 set 函 数 是 将 索引 i 的 集合 元 系 置 为 
1。 








第 20~40 行 计算 指令 的 gen 和 kill 集 合 ， 其 中 第 23~24 行 将 gen 和 k 记 初 
始 化 为 空 集 E。 


第 27~28 行 处 理 指 针 运 算 的 赋值 指令 和 指针 参数 指令 ， 它 们 可 能 杀 
死 所 有 的 复写 表达 式 ， 因 此 将 kill 置 为 全 集 U。 


第 29~30 行 处 理 函 数 调 用 指令 ， 它 们 可 能 杀 死 所 有 包含 全 局 变量 的 
复写 表达 式 ， 因 此 将 kill 置 为 G。 而 对 有 返回 值 的 函数 ， 调 用 指令 
OP_CALL 的 返回 值 放 在 后 面 处 理 。 


第 31~39 处 理 所 有 修改 结果 变量 rs 的 指令 ， 并 与 复写 表达 式 集合 
copyExpr 进 行 比 对 。 














第 33~35 行 表示 指令 运算 结果 rs 是 复写 表达 式 cCopyExpr[i 的 一 部 分 ， 
即 指令 杀 死 了 复写 表达 式 copyExpr[i]， 因 此 将 指令 的 k 记 集合 索引 i 的 元 
素 置 为 1。 


第 36~37 行 表示 该 指令 为 赋值 表达 式 ， 产 生 了 复写 表达 式 
copyExpr[i]， 因 此 将 指令 的 gen 集 合 索 引 i 的 元 素 置 为 1。 赋 值 表 达 式 杀 死 
的 复写 表达 式 已 经 在 第 33~35 行 处 理 。 





产生 集合 gen 和 杀 死 集合 k 记 初始 化 完毕 后 ， 便 可 以 实现 传递 函数 的 


功能 。 


1 bool CopyPropagation::translate 


Block*block){ 
Set tmp=block->copyInfo.in; 
for(list<InterInst*>::iterator i=block->insts.begin(); 
i!=block->insts.end();++i){ 
InterInst*inst=*i,; 
Set& in=inst->copyInfo.in， 
Set& out=inst->copyInfo.out 
In=tmp ， 
out=(in-inst->copyInfo.Kkill) 


‘OO0NOPON ~ 


10 |inst->copyInfo.gen; 
11 tmp=out; 

12 } 

13 bool flag=tmp!=block->copyInfo.out; 
14 block->copyInfo.out=tmp; 

15 return flag; 

16 } 





第 2 行将 tmp 集 合 初 始 化 为 基本 块 的 入 口 集 合 B.in。 第 3~12 行 按 序 处 
理 基 本 块 内 的 指令 。 


第 8 行将 tmp 记 录 到 指令 的 入 口 集合 s.in。 第 9 行 根据 指令 的 传递 函数 
计算 指令 的 出 口 集合 s.out。 指 令 传递 函数 使 用 了 运算 符 中 和 “用 于 表示 
集合 的 并 集 和 差 集 运算 ， 这 些 运 算 符 已 经 被 Set 关 重 载 。 


第 11 行 将 指令 出 口 集合 s.out 更 新 到 tmp， 作 为 下 条 指令 的 入 口 集 


第 13 行 判断 基本 块 的 出 口 集合 B.out 是 否 发 生 更 新 。 第 14 行 更 新 基本 
块 的 出 口 集合 。 


根据 复写 传播 的 传递 函数 实现 复写 传播 的 数据 流 分 析 如 下 。 





1 void CopyPropagation::analyse 


(){ 
2 dfg->blocks[0]->copyInfo.out=E; //Entry .out=E 
3 for(unsigned int i=1;i<dfg->blocks.size();++i){ 


4 dfg->blocks[I]->copyInfo.out=U //B.out=U 
5 

6 bool change=true,; 

7 while(change)t{ //B, 
8 change=false,; 

9 for(unsigned int i=1;i<dfg->blocks.size();++i){ 

10 if(!dfg->blocks[i]->canReach)continue; 

11 Set tmp=U; 

12 Jist<Block*>::iterator j; 

13 for(j=dfg- sblocksri1- >prevs.begin(); 

14 j!=dfg->blocks[i]->prevs.end();++j){ 

15 tmp=tmp & (*j)->copyInfo.out; 

16 } 

17 dfg->blocks[i]->copyInfo.in=tmp; 

18 if(translate(dfg->blocks[i])) 

19 change=true; 

20 } 

21 

22 } 





第 2~5 行 初始 化 常量 传播 基本 块 的 出 口 集合 ， 其 中 Entry 块 出 口 集合 
初始 化 为 空 集 E， 其 他 基本 块 出 口 集 合 初 始 化 为 全 集 U。 


第 7~20 行 进行 运 代 不 动 点 计算 。 其 中 第 10 行 跳 过 不 可 达 的 基本 块 ， 
第 15 行 使 用 集合 交集 运算 ‘8 合并 前 驱 基 本 块 的 出 口 集合 到 B.in， 第 18 行 
调用 传递 函数 计算 B.out。 





复写 传播 数据 流 分 析 结 束 后 ， 每 条 指令 的 入 口 集合 内 保存 了 有 效 的 
复写 表达 式 集合 。 


copyInfo.in 
b=a c=b 





b=a 0 0 b=a 
c=b 1 0 b<-a c=Qa 
d=c+1 1 1 cx-b<-a d=a+l1 


) 中 间 代 但 b ) 数据 流 信息 c ) 优化 后 中 间 代 三 


图 4-7 复写 传播 


本 节 开 始 的 例子 经 过 复写 传播 数据 流 分 析 后 的 数据 流 信 息 如 图 4-7 
所 示 。 在 处 理 指令 “c=b” 时 ， 入 口 复写 表达 式 集合 为 {b=a}， 复 写 传播 链 
为 “ba” 因 此 使 用 变量 a 垩 换 变 量 b， 得 到 指令 “c=a”。 在 人 处理 指 
令 “d=c+1” 时 ， 入 口 复写 表达 式 集合 为 {b=a，c=b}， 复 写 传播 链 
为 “cb~a”， 因 此 使 用 变量 a 珍 换 变量 c 的 使 用 ， 得 到 指令 “d=a+1”。 








根据 复写 链 俘 找 变 量 的 实现 为 : 





1 Var* CopyPropagation::find 


(Set& in,Var*var)t{ 

2 if(!var)return NULL; 

3 for(unsigned int i=0;i<copyExpr.size();i++){ 
4 if(in.get(i))t{ 

5 Var*rs=copyExpr[i]->getResult(); 

6 Var*arg1i=copyExpr[i]->getArg1(); 

7 if(var!=rs)continue; 

8 If(var!=rs||rs==arg1)break 

9 return find 


(in,arg1); 
10 


} 
11 
12 return var; 
13 } 





参数 in 表 示 指 令 入 口 复 写 表达 式 集合 ，var 为 待 查 找 的 变量 。 


第 3~4 行 过 历 入 口 集合 的 复写 表达 式 ，Set 的 get 函 数 测 试 索 引 为 i 的 


第 5~6 行 取出 复写 表达 式 的 结果 rs 和 参数 arg1。 











第 7 行 判 断 如 果 待 得 找 的 变量 不 是 复写 表达 陈 的 结果 变量 ， 则 继续 


问 后 查找 。 


第 8 行 判断 如 果 复 写 表 达 陈 的 形式 为 "x=x”， 则 停止 查找 过 程 ， 避 免 


无 限 碍 找 。 


第 9 行将 argl 作 为 竺 得 找 变量 继续 递归 得 找 。 


使 用 find 函 数 总 能 找到 边 var 复 写 传播 的 “源头 ”， 即 复写 值 的 来 源 。 


使 用 复写 传播 数据 流 信 息 对 代码 优化 的 实现 为 : 





1 void CopyPropagation::propagate 


Se 
~ 


‘OO0NORON ~ 





analyse( ); 
for(list<InterIinst*>::iterator i=optCode.begin(); 


i!l=optCode.end();++i){ 

InterInst*inst=*i,; 

Var* rs=inst->getResult(); 

Operator op=inst->getoOp(); 

Var*arg1l=inst->getArg1(); 

Var*arg2=inst->getArg2(); 

InterIinst*tar=inst->getTarget(); 

If(op==OP_SET){ 
Var*newRs=find(inst->copyInfo.in,rs); 
inst->replace(op,newRs,arg1); 


} 

else if(op>=0P_AS&&op<=0P_GET&&.0p!=0P_LEA){ 
Var*newArg1=find(inst->copyInfo.in,arg1); 
Var*newArg2=find(inst->copyInfo.in,arg2); 
inst->replace(op,rs,newArg1,newArg2); 


} 
else if(op==OP_JT||op==OP_JF||op==OP_ARG||op==OP_RETV){ 


Var*newArg1=find(inst->copyInfo.in,arg1); 
inst->setArg1i(newArg1); 
} 


第 2 行 调 用 analyse 函 数 进行 复写 传播 数据 流 分 析 。 





第 3~4 行 处 理 每 一 条 中 间 代 码 指令 。 


第 11~14 行 处 理 指 针 运 算 赋 值 指 令 “*arg1=result”， 调 用 find 碍 找 
result 的 复写 值 来 源 newRs， 然 后 更 新 指令 。 


第 15~19 行 处 理 一 般 的 运算 指令 ， 其 中 排除 了 取 址 运算 指令 
OP_ LEA， 这 是 因为 取 址 运算 是 针对 变量 的 ， 而 非 变 量 的 值 。 


第 16~17 行 取出 操作 数 的 复写 值 来 源 ， 然 后 更 新 指令 。 


第 20~22 行 处 理 其 他 运算 指令 ， 同 样 将 arg1 的 复写 值 来 源 更 新 到 指 


令 。 


4.2.3 死 代 码 消 除 


前 面 讨论 过 ， 复 写 传播 从 一 定 意义 上 说 是 为 死 代码 消除 算法 服务 
的 。 所 谓 死 代 码 ， 就 是 对 程序 计算 结果 没有 任何 影响 的 代码 。 死 代码 消 
除 就 是 发 现 这 样 的 死 代码 ， 并 将 之 从 代码 中 删除 。 死 代码 消除 是 基于 变 
量 的 活跃 性 数据 流 分 析 过 程 的 ， 变 量 活跃 性 分 析 是 为 了 发 现 东 条 指令 执 
行 后 ， 哪 些 变量 还 会 被 使 有 用。 如果 对 变量 值 的 修改 〈 称 为 定 值 ) 指令 执 
行 后 ， 该 变量 不 会 在 以 后 再 被 使 用 ， 那 么 便 认 为 这 条 指令 是 无 效 的 ， 即 
死 代码 。 如 图 4-7 所 示 复 写 传播 优化 后 的 中 间 代 码 ， 在 指令 “b=a” 执 行 
后 ， 变 量 不 会 再 被 使 用 ， 因 此 该 指令 为 死 代码 ， 同 样 的 指令 “c=b” 也 是 
死 代码 。 而 在 复写 传播 优化 之 前 ， 所 有 的 变量 都 会 被 直接 或 间接 地 使 
用 ， 因 此 不 存在 死 代码 ， 这 说 明了 复写 传播 优化 对 于 死 代码 消除 的 必要 
性 




















活跃 变量 数据 流 分 析 框 架 的 定义 如 下 。 


1) 数据 流 方 向 D: 活跃 变量 分 析 计 算 将 来 要 被 使 用 的 变量 集合 ， 
与 代码 执行 顺序 相反 ， 因 此 是 逆 癌 数据 流 。 








2) 值 集 V: 活跃 变量 分 析 的 是 所 有 的 可 见 变量 ， 包 括 全 局 变量 、 
参数 变量 和 局 部 变量 ， 这 与 常量 传播 分 析 的 对 象 相同 。 由 于 是 逆 疝 数据 
流 ， 边 界 集合 VExit 的 值 为 空 集 ， 因 为 Exit 块 不 会 使 用 任何 变量 。 初 值 集 














合 ? 也 是 空 集 ， 因 为 交汇 运算 是 集合 并 集运 算 。 边 界 集合 和 初 值 集合 都 
征 值 集 V 的 元 素 ， 因 此 值 集 V 为 可 见 变 量 的 早 集 。 











3) 交汇 运算 和 人: 当 基 本 块 共有 多 个 后 继 时 ， 基 本 块 出 口 处 的 活跃 
变量 集合 为 后 继 集合 入 口 处 活跃 变量 集合 的 并 集 ， 因 此 交汇 运算 为 集合 


4) 传递 函数 : 与 前 面 描述 的 数据 流 问 题 的 传递 函数 类 似 ， 这 里 仍 
将 指令 看 作 独 立 的 基本 块 。 在 复写 传播 数据 流 中 ， 定 义 了 指令 的 产生 复 
写 表达 式 集 合 s.gen 和 杀 死 复写 表达 式 集合 skill。 类 似 地 ， 活 跃 变量 分 析 
数据 流 也 为 指令 定义 了 两 个 集合 : 指令 定 值 变量 集合 s.def 和 指令 使 用 变 
量 集 合 s.use。 对 于 通用 的 指令 形式 x=f (y) ， 其 中 x 为 指令 计算 结果 ，f 
为 指令 计算 操作 ，y 为 指令 参数 ， 我 们 称 为 该 指令 是 对 y 的 使 用 ， 对 x 的 
定 值 。 那 么 x 属于 指令 的 定 值 变量 集合 s.def，y 属 于 指令 的 使 用 变量 集合 
s.use。 如 果 y 和 x 是 同一 个 变量 ， 即 x=f (x) ， 这 里 规定 x 属于 指令 的 使 
用 集合 s.use。 指 令 的 传递 函数 fs 定义 为 : s.in= (s.out-s.def) U s.use。 











活跃 变量 分 析 初 始 化 阶段 ， 需 要 统计 所 有 的 可 见 变量 ， 并 计算 指令 
的 def 和 use 集 合 。 


1 LiveVar::LiveVar 


(DFG*g,SymTab*t,vector<Var*>&paraVar) 

2 :dfg(g) vtab(t){ 

3 varList=tab->getGlbVars(); 

4 int glbNum=varList.sizel(); 

5 for(unsigned int i=0;i<paraVar.size();++i) 
6 varList.push_back(paraVvar[i]); 


7 dfg->tocode(optcode ) 


8 for(list<InterIinst*>::iterator i=optCode.begin(); 

9 i!l=optCode.end();++i)f{ 

10 InterInst*inst=*i; 

11 Operator op=inst->getOop(); 

12 if(op==O0P_DEC)varList.push_back(inst->getArg1()); 
13 

14 U.init(varList.size(),1); 

15 E.init(varList.size(),0); 

16 G=E; 

17 for(int i=0;i<glbNum;i++)6G.set(i),; 

18 for(unsigned int i=0;i<varList.size();i++) 

19 varList[i]->index=i; 

20 for(list<InterIinst*>::iterator i=optCode.begin(); 

21 i!l=optCode.end();++i){ 

22 InterInst*inst=*i; 

23 inst->liveInfo.use=E,; 

24 inst->liveIinfo.def=E,; 

25 Var*rs=inst->getResult(); 

26 Operator op=inst->getop()， 

27 Var*arg1l=inst->getArg1(); 

28 Var*arg2=inst->getArg2(); 

29 If(op>=O0P_AS&&op<=0OP_LEA){ 

30 inst->1iveInfo,uUuse.Sset(arg1->index)， 

31 if(arg2) 

32 inst->liveInfo.use.set(arg2->index); 
33 if(rs!=arg1 && rs!=arg2) 

34 inst->liveInfo.def.set(rs->index); 
35 } 

36 else if(op==OP_SET ) 

37 inst->liveInfo.use.set(rs->index); 

38 else if(op==OP_GET ) 

39 inst->liveInfo.use=U; 

40 else if(op==OP_RETV) 

41 inst->liveInfo.use.set(arg1i->index); 

42 else if(op==OP_ARG){ 

43 if(arg1->iSsBase() ) 

44 inst->1iveInfo,uUse.Sset(arg1->index); 
45 else 

46 inst->liveInfo.use=U; 

47 } 

48 else if(op==0P_CALL||op==OP_PROC){ 

49 inst->liveInfo.use=6; 

50 if(rs&&rs->getPath().size( )>1) 

51 inst->liveInfo.def.set(rs->index); 
52 } 

53 else if(op==0P_JF||op==0P_JT) 

54 inst->liveInfo.use.set(arg1i->index); 

55 

56 } 














第 3~13 行 将 全 局 变量 、 参 数 变 量 和 局 部 变量 保存 到 变量 集合 
varList。 第 14~19 行 初始 化 了 数据 流 值 的 全 集 、 空 集 、 全 局 变量 集合 和 
变量 在 变量 集合 varList 的 索 3 





O 


第 20~55 行 计算 指令 的 def 和 use 集 合 。 第 29~35 行 处 理 一 般 的 运算 指 
令 ， 即 将 arg1 和 arg2 添 加 到 指令 的 use 集 合 ， 如 果 rs 不 等 于 arg1 和 arg2， 则 
将 rs 添加 到 指令 的 def 集 合 。 





第 36~37 行 处 理 指 针 运算 赋值 指令 “*arg1=result*， 我 们 可 以 确定 
result 一 定 会 被 使 用 。arg1 指 向 的 变量 无 法 确定 ， 但 不 能 认为 产生 了 对 任 
意 变 量 的 定 值 ， 否 则 会 消除 除了 result 的 所 有 变量 的 活路 信息， 导致 正 
常 的 代码 被 处 理 为 死 代 码 。 因 此 ， 在 无 法 确定 指令 的 定 值 变 量 集合 时 ， 
保守 地 认为 没有 变量 被 定 值 。 











第 38~39 行 处 理 指令 运算 取 值 指令 “result=*arg1”， 这 里 无 法 确定 
result 是 否 被 定 值 ， 因 为 arg1 有 可 能 指 癌 result。argl 指 向 的 变量 无 法 确 
定 ， 在 不 能 确定 指令 的 使 用 变量 集合 时 ， 保 守 地 认为 所 有 的 变量 被 使 





第 40~41 行 处 理 函 数 返 回 指令 ， 将 arg1 添 加 a 到 指令 的 使 用 变量 集 


> 


第 42~47 行 处 理 参 数 指令 ， 如 果 参 数 是 基本 类 型 ， 将 之 添加 a 到 使 用 
变量 集合 ， 如 果 参 数 是 非 基 本 类 型 ， 则 认为 所 有 的 变量 会 被 使 用 。 


第 48~52 行 处 理 函 数 调 用 指令 ， 保 守 认 为 函数 调用 会 使 用 所 有 的 全 
局 变量 。 如 果 函 数 有 返回 值 ， 且 返回 值 不 是 全 局 变量 ， 则 将 返回 值 添 加 
到 和 定 值 变量 集合 。 








第 53~54 行 处 理 跳 转 指令 ， 将 arg1l 添 加 到 使 用 变量 集合 。 


根据 指令 的 def 和 和 use 集合 ， 实 现 基本 块 的 传递 函数 如 下 。 





1 bool LiveVar::translate 


(Block*block){ 

2 Set tmp=block->liveInfo.out; 

3 for(list<InterIinst*>: :reverse iterator 
4 i=block->insts.rbegin(); 

5 i!=block->insts.rend();++i)f{ 

6 InterInst*inst=*i,; 

7 if(inst->isDead)continue; 

8 Set& in=inst->liveInfo.in; 


9 Set& out=inst->liveInfo.out; 

10 out=tmp; 

11 in=inst->liveInfo.use | (out-inst->liveInfo.def); 
12 tmp=in; 

13 } 

14 bool flag=tmp!=block->liveInfo.in,; 

15 block->liveInfo.in=tmp; 

16 return flag; 

17 } 





活跃 变量 分 析 的 传递 函数 和 复写 传播 的 传递 函数 基本 类 似 ， 只 不 过 
对 基本 块 内 的 指令 是 使 用 reverse_iterator 逆 序 裔 历 的 ， 这 是 因为 活跃 变 
量 数 据 流 是 逆 同 的 。 





为 外 ， 第 7 行 跳 过 了 死 代码 指令 ， 后 面 的 死 代码 消除 算法 会 对 此 作 
出 解释 。 


根据 活跃 变量 分 析 的 传递 函数 实现 活跃 变量 数据 流 分 析 如 下 。 





1 void LiveVar::analyse 


dfg->blocks[dfg->blocks.size()-1]->liveInfo.in=E,; //Exit.in 
for(unsigned int i=0;i<dfg->blocks.size()-1;++1i){ 
dfg->blocks[i]->liveInfo.in=E; // 


OWN ~ 


6 bool change=true,; 

7 while(change)t 

8 change=false,; 

9 for(int i=dfg->blocks.size()-2;i>=0;--i){ / /逆序 
10 if(!dfg->blocks[i]-. 

canReach )continue,; 

11 Set tmp=E; 

12 Jist<Block*>::iterator j; 

13 for(j=dfg->blocks[i]->succs.begin(); 

14 j!=dfg->blocks[i]->succs.end();++j){ 
15 tmp=tmp | (*j)->liveInfo.in; 

16 } 

17 dfg->blocks[i]->liveIinfo.out=tmp; 

18 if(translate(dfg->blocks[i])) 

19 change=true; 

20 } 

21 

22 } 





第 2~5 行 将 Exit 块 的 入 口 集合 初始 化 为 空 集 ， 将 其 他 基本 块 的 入 口 
集合 也 初始 化 为 空 集 。 


第 7~21 行 进行 欠 代 不 动 点 计算 ， 第 9 行 逆 序 处 理 基 本 块 ， 第 10 行 跳 
过 不 可 达 基 本 块 。 


第 15 行 使 用 集合 并 运算 “以 将 前 驱 基本 块 的 出 口 集合 合并 到 
B.out， 第 17 行 调用 传递 函数 来 计算 B.in。 


活跃 变量 分 析 结 束 后 ， 指 令 的 出 口 集合 保存 了 所 有 将 要 使 用 的 变量 
集合 。 如 果 对 变量 的 定 值 指令 的 出 口 集合 中 不 包含 该 变量 ， 则 将 该 指令 
标记 为 死 代码 。 








1 void LiveVar::elimateDeadCode 


(Int Stop=false){ 
2 if(stop){ 


3 for(list<InterIinst*>::iterator i=optCode.begin(); 
4 i!l=optCode.end();++i){ 

5 InterInst*inst=*1i; 

6 Operator op=inst->getOp(); 

7 if(inst->isDead||op==0P_DEC)continue; 
8 Var*rs=inst->getResult(); 

9 Var*arg1l=inst->getArg1(); 

10 Var*arg2=inst->getArg2(); 

11 if(rs)rs->live=true; 

12 if(argi)arg1i->live=true; 

13 if(arg2)arg2->live=true; 


14 

15 for(list<InterIinst*>::iterator i=optCode.begin(); 
16 i!=optCode.end();++i){ 

17 InterInst*inst=*1i,; 

18 Operator op=inst->getOp(); 

19 if(op==OP_DEC){ 

20 Var*arg1=inst->getArg1() ， 

21 if(!arg1i->live)inst->isDead=true; 
22 } 

23 } 

24 return ， 

25 

26 stop=true; 

27 analyse( ); 

28 for(list<InterIinst*>::iterator i=optCode.begin(); 
29 i!=optCode.end();++i){ 

30 InterInst*inst=*i; 

31 if(inst->isDead)continue; 

32 Var*rs=inst->getResult(); 

33 Operator op=inst->getoOp(); 

34 Var*arg1l=inst->getArg1(); 

35 Var*arg2=inst->getArg2(); 

36 if(op>=0P_AS&&op<=0P_LEA| |op==0P_GET){ 

37 if(rs->getPpath().size()==1)continue; 

38 if(!inst->liveInfo.out.get(rs->index) 

39 | 10p==0P_AS&&rs==arg1)f{ 

40 inst->isDead=true; 

41 stop=false; 

42 } 

43 } 

44 else if(op==OP_CALL){ 

45 if(!inst->liveInfo.out.get(rs->index)) 
46 inst->callToProc(); 

47 } 

48 

49 elimateDeadCode( stop); 

50 } 





第 2~25 行 处 理 变量 声明 指令 OP DEC， 第 26~49 行 对 死 代 码 进行 标 
记 O 


第 26 行 设 定 stop 标 记 ， 期 望 算 法 可 以 终止 。 第 27 行 调用 analyse 进 行 
活跃 变量 分 析 。 


第 28~48 行 过 历 所 有 指令 ， 标 记 死 代码 。 第 49 行 递归 调用 
elimateDeadCode 进 行 死 代码 消除 。 





第 36~43 行 处 理 一 般 的 变量 定 值 指令 ， 第 37 行 跳 过 对 全 局 变量 的 定 
值 指 令 ， 第 38 行 表示 被 赋值 的 变量 rs 不 在 指令 的 出 口 集合 中 ， 第 39 行 识 
别 形 如 “x=x 的 指令 ， 第 40 行 将 指令 标记 为 死 代码 。 第 41 行 设 定 stop 为 
false， 需 要 再 次 运行 死 代 码 消除 算法 ， 这 是 因为 消除 死 代码 后 ， 可 能 使 
原本 的 活跃 变量 数据 流 信息 发 生变 化 。 





第 44~46 行 处 理 函数 调用 指令 ， 如 果 函 数 返 回 值 没有 被 使 用 的 话 ， 
则 将 有 返回 值 函数 调用 指令 OP_CALL 修 正 为 无 返回 值 函 数 调用 指令 
OP_PROC。 





当 没 有 新 的 死 代 码 被 标记 时 ，stop 被 设置 为 tue， 此 时 处 理 变量 的 


声明 指令 。 


第 3~14 行 将 所 有 的 非 死 代码 和 非 OP_ DEC 指令 的 结果 和 参数 变量 标 
记 为 活跃 的 ， 第 15~23 行 处 理 OP_DEC 指 令 ， 如 果 指 令 的 操作 数 arg1 变 量 
不 是 活跃 的 ， 则 将 OP_DEC 指 令 标 记 为 死 代 码 ， 达 到 清洗 变量 声明 指令 
的 目的 。 


43 寄存 带 分 配 





CPU 内 的 寄存 器 有 比 内 存 更 高 的 访问 效率 ， 但 是 寄存 右 资 源 非常 有 
限 ， 如 何 合理 地 利用 寄存 器 资源 ， 提 高 代码 的 性 能 ， 是 编译 优化 关心 的 


问题 。 


4.3.1 图 痢 色 算法 


当代 码 中 使 用 的 变量 个 数 小 于 寄存 器 个 数 时 ， 我 们 可 以 为 所 有 的 变 
量 各 指定 一 个 寄存 器 ， 实 现 变 量 的 高 效 访问 。 一 般 情况 下 ， 寄 存 器 的 个 
数 远 小 于 变量 个 数 ， 当 寄存 器 保存 了 一 个 变量 后 ， 就 不 能 再 保存 其 他 变 
量 。 但 是 也 有 例外 ， 如 果 保 存在 寄存 器 的 变量 在 以 后 不 会 再 被 用 到 不 
再 活跃 ) ， 那 么 后 来 的 变量 便 可 以 保存 在 这 个 寄存 顺 中 。 可 以 看 出 ， 变 
量 的 活跃 性 信息 对 寄存 器 的 分 配 至 关 重 要 。 

















如 宁 两 个 变量 永远 不 能 保存 在 同一 个 寄存 器 ， 则 称 这 两 个 变量 是 相 
互 冲 突 的 。 在 变量 的 活跃 性 分 析 结 束 后 ， 每 条 指令 的 出 口 集合 内 保存 的 
变量 都 是 活跃 的 ， 即 在 将 来 会 被 用 到 。 同 时 活跃 的 变量 是 不 能 保存 在 同 
一 寄存 器 的 ， 因 此 是 相互 冲突 的 。 











图 4-8 描 述 了 左 侧 中 间 代 码 经 活跃 变量 分 析 后 ， 产 生 的 活跃 变量 信 
晨 ， 即 指令 的 out 集 合 。Entry 指 令 出 口 集合 为 {a，b，d， 人 人， 表示 这 四 
个 变量 是 同时 活路 的， 它们 是 相互 冲突 的 。 如 果 以 变量 为 太 皮 ， 以 变量 
之 前 的 冲突 关系 作为 边 ， 构 造 图 数据 结构 (冲突 图 ) ， 便 可 以 表达 所 有 
变量 之 间 的 冲突 关系 。 


图 4-9 插 述 了 根据 图 4-8 的 变量 活跃 性 信息 构造 的 冲突 图 。 我 们 友 
现 ， 对 于 任意 指令 的 出 口 集合 的 变量 ， 它 们 的 冲突 关系 在 冲突 图 内 表现 





为 一 个 完全 子 图 。 


中 间 代 码 人 





图 4-9 ”冲突 图 


经 典 的 寄存 器 分 配 算法 使 用 的 是 图 着 色 算 法 ， 图 看 色 算 法 的 目的 是 
为 图 节点 分 配 颜色 ， 并 保证 相关 联 的 节点 的 颜色 不 能 相同 。 图 着 色 算 法 
的 计算 对 象 是 冲突 图 ， 对 冲突 图 进行 着 色 后 ， 每 个 市 点 都 获得 了 闫 色 ， 
且 相 关联 节点 的 颜色 互 不 相同 。 如 果 将 颜色 看 作 寄 存 器 ， 由 于 冲突 图 的 
节点 表示 代码 中 的 变量 ， 因 此 对 冲突 图 的 图 看 色 实 际 是 完成 了 变量 的 寄 
存 器 分 配 。 

















由 于 图 着 色 问 题 是 NP 问题 ， 即 不 存在 多 项 式 时 间 的 算法 找到 图 的 


最 佳 着 色 方 案 。 但 是 ， 存 在 多 项 式 时 间 的 近似 最 佳 图 着 色 方 案 ， 基 本 思 
想 如 下 : 





1) 选取 度 最 大 的 节点 进行 着 色 。 


2) 与 被 着 色 节 点 相连 的 节点 不 能 再 着 相同 的 颜色 。 


3) 将 被 着 色 节 点 及 其 关联 边 从 图 中 删除 。 





4) 重复 以 上 过 程 ， 直 到 节点 全 部 着 色 或 没有 颜色 可 以 使 用 为 止 。 


如 图 4-10 所 示 图 着 色 算 法 的 例子 ， 假 设 我 们 有 充足 的 颜色 可 以 使 
用 ， 闫 色 编 号 从 1 开始 。 


(3)a 着 3 号 色 


f1.3} 





(4)c 着 3 号 色 (5)b 着 4 号 色 (6)e 着 2 号 色 
图 4-10 图 着 色 


对 于 冲突 图 ， 选 取 最 大 度 节 点 f， 着 颜色 1， 节 点 a、b、c、d、e 记 录 
不 能 再 着 1 号 色 ， 然 后 删除 节点 { 及 其 关联 边 。 接 着 选择 最 大 度 节点 d，d 
不 能 着 1 号 色 ， 选 取 颜 色 2 对 d 着 色 ， 节 点 a、b、c 不 能 着 2 号 色 ， 然 后 删 
除 节 点 d 及 其 关联 边 。 以 此 类 推 ， 将 节点 a 着 3 号 色 ， 节 点 c 着 3 号 色 ， 节 
点 b 着 4 号 色 ， 节 点 e 着 2 号 色 。 





我 们 发 现 原本 图 4-10 中 有 6 个 节点 ， 而 使 用 4 种 颜色 便 可 以 完成 图 的 
着 色 。 换 句 话 说 ， 代 码 中 的 6 个 变量 可 以 使 用 4 个 寄存 器 进行 保存 。 如 果 
可 用 的 寄存 器 只 有 三 个 ， 那 么 按照 上 述 图 着 色 算 法 ， 无 法 为 变量 d 分 配 





寄存 器 ， 此 时 d 只 能 保存 在 内 存 中 。 





冲突 图 相关 数据 结构 定义 如 下 。 





1 struct Node 








Varx*Var / /节点 对 应 的 变量 
3 int degree; / /节点 的 度 
4 int color,; // 节 点 颜色 
5 Set exColors; / /节点 排斥 的 颜色 
6 Vector<Node*> links; / /关联 边 

7 }; 


8 class CoGraph 


{ / /冲突 图 

9 struct node_less{ / /节点 度 比 较 
10 bool operator()(Node*left,Node*right){ 

11 return left->degree<=right->degree; 

12 } 

13 }; 

14 vector<Node*> nodes; / /节点 序列 

15 }; 








类 型 Node 表 示 冲 突 图 的 节操 ， 其 字段 var 记 录 市 反对 应 的 变量 ， 字 


段 degree 实 时 记录 节点 的 度 。 字 段 color 记 录 寄 存 器 分 配 后 节点 的 颜色 ， 








即 寄 存 器 的 编号 ， 初 始 化 为 -1 表示 没有 分 配 寄存 器 。 字 段 exColor 表 示 
节点 在 寄存 器 分 配 过 程 中 不 能 使 用 的 项 色 集合 。 字 段 links 表 示 节 点 的 相 
邻 节 点 集合 。 类 型 CoGraph 表 示 冲 突 图 ，node_less 用 于 比较 两 个 节点 度 
的 大 小 ， 字 7 段 nodes 记 录 冲 突 图 的 所 有 节点 。 


根据 变量 活跃 性 信息 构造 冲突 图 的 实现 如 下 。 








1 CoGraph::CoGraph 


list<InterInst*>&optCode, 
vector<Var*>&para,LiveVar*1lv,Fun*f){ 


this->optCode=optCode; 


( 
2 
3 fun=f; 
4 
5 this->lv=1v; 


6 U.init(regNum,1); / 
7 E,init(regNum,0)， / 
8 for(unsigned int i=0;i<para.size();++i) / /参数 

9 varList.push_back(para[i]); 

10 for(list<InterIinst*>::iterator i=optCode.begin(); 

11 i!l=optCode.end();++i)f{ 

12 InterInst*inst=*i,; 

13 Operator op=inst->getOop(); 

14 if(op==OP_DEC){ 

15 Var* arg1=inst->getArg1() ， 

16 varList.push_back(arg1); 

17 } 

18 if(op==OP_LEA){ 

19 Var* arg1=inst->getArg1() ， 

20 if(arg1)arg1->inMem=true， 

21 

22 } 

23 Set& liveE=]v->getE(); 

24 Set mask=liveE,; 


25 for(unsigned int i=0;i<varList.size();i++) 


26 mask.set(varList[i]->index); 


27 for(unsigned int i=0;i<varList.size();i++){ // 图 节点 

28 Node*node; 

29 if(varList[i]->getArray()||varList[i]->inMem) 

30 node=new Node(varList[i],U); 

31 else 

32 node=new Node(varList[i], E); 

33 varList[i]->index=i; 

34 nodes.push_back(node); 

35 } 

36 Set buf=liveE; 

37 list<InterInst*>::reverse_ iterator i; 

38 for(i=optCode.rbegin(); 

39 i!=optCode.rend();++i){ // 
40 Set& liveout=(*i)->liveInfo.out,; 

41 if(liveout!=buf){ 

42 buf=liveout; 

43 vector<Var*> coVar=lv->getCoVar(liveout & mask); 

44 for(int j=0;j<(int)coVar.size()-1;j++){ 

45 for(int k=j+1;k<coVar.size();Kk++){ 

46 nodes[coVar[j]->index]-> 

47 addLink(nodes[coVvar[k]->index]); 
48 nodes[covar[Kk]->index]-> 

49 addLink(nodes[coVar[j]->index]); 
50 } 

51 } 

52 } 

53 } 

54 } 





第 5 行 记 录 变 量 活 跃 性 信息 ， 第 6~7 行 根据 可 用 寄存 器 个 数 regNum 
初始 化 颜色 集合 全 集 U 和 闫 色 集 合 空 集 E。 











第 8~22 行 将 参数 变量 和 局 部 变量 添加 到 变量 列表 (全 局 变量 不 进行 
寄存 器 分 配 ) ， 并 将 取 址 运算 的 操作 数 变量 标记 为 必须 在 内 存 而 不 能 分 
配 寄 存 器 ， 即 记 Mem 为 true。 


第 23~26 行 计算 掩 码 集合 mask。 变 量 活跃 性 分 析 时 的 变量 集合 包含 
全 局 变量 ， 而 当前 变量 集合 不 包含 全 局 变量 ， 因 此 将 mask 对 应 全 局 变量 
的 索引 元 素 设 置 为 0， 其 他 变量 对 应 的 索引 元 素 设 置 为 1。 当 从 变量 活跃 











性 信息 lv 中 取出 活跃 变量 集合 out 时 ， 需 要 将 out 与 nask 进 行 与 运算 ， 仅 
保留 out 集 合 中 与 非 全 局 变量 相关 的 活跃 变量 信息 。 





第 27~35 行 构建 冲突 图 节点 ， 第 29~30 行 为 数组 或 标记 为 iInMem 的 变 
量 创建 图 节点 ， 并 将 节点 的 exColor 集 合 设 为 全 集 U， 即 该 节点 不 能 使 用 
任何 颜色 。 第 32 行 为 一 般 的 变量 创建 图 节点 ， 并 将 exColor 设 计 为 空 集 
E， 表 示 寄 存 器 分 配 前 ， 节 点 可 以 使 用 任何 原色 。 第 34 行 将 创建 的 图 节 
点 保存 到 节点 列表 nodes。 





第 36~53 行 为 冲突 图 添加 关联 边 ， 第 36~42 行 逆序 裔 历 所 有 的 指令 ， 
并 取出 指令 出 口 处 的 活跃 变量 信息 liveout。 变 量 buf 用 于 缓存 上 一 条 指令 
的 liveout， 有 避免 连续 等 值 的 liveout 的 重复 计算 。 





第 43 行 调用 getCoVar 获 取 liveout 对 应 的 所 有 变量 集合 coVar，mask 
用 于 过 滤 全 局 变量 。 


第 44~51 行 将 covar 的 变量 两 两 组 合 ， 调 用 addLink 添 加 冲突 边 。 





1 void Node::addLink 


(Node*node){ 

2 vector<Node*>::iterator pos= 

3 lower_bound(links.begin(),1inks.end(),node); 
4 if(pos==]links.end() || *pos!=node){ 

5 links.insert(pos,node); 

6 degreet++; 

7 时 

8 } 





函数 addLink 将 当前 节点 添加 到 节点 node 的 冲突 边 。lower_bound 函 





数 根据 二 分 碍 找 算 法 将 node 贡 点 按 序 插 入 到 links。 第 6 行将 节点 的 度 加 
1。 


冲突 图 构造 完毕 后 ， 调 用 图 着 色 算 法 为 图 节点 分 配 颜 色 。 





1 void CoGraph::regAlloc 





(){ 
2 Set colorBox=U; / /颜色 集合 
3 int nodeNum=nodes.size(); / /节点 个 数 
4 for(int i=0;i<nodeNum;i++){ 
Node* node=pickNode(); / /选取 最 大 度 节点 
6 node->paint(colorBox); / /对 节点 着 色 
7 } 
8 } 





第 2 行将 colorBox 初 始 化 为 颜色 集合 全 集 ， 表 示 所 有 的 颜色 。 由 于 
每 次 着 色 都 会 处 理 一 个 节点 ， 因 此 图 着 色 算 法 需要 循环 节点 个 数 
nodeNum 次 。pickNode 函 数 用 于 选取 训 突 图 中 度 最 大 的 节点 ，paint 函 数 
为 该 节点 进行 着 色 。 


pickNode 函 数 的 实现 为 : 





1 _ Node* CoGraph: :pickNode 


make_heap(nodes.begin(),nodes.end(),node less()); 
Node*node=nodes .front(); 
return node 


天 WL 一 





函数 pickNode 调 用 make_heap 函 数 将 图 节点 序列 构造 为 最 大 堆 ， 那 


么 图 节点 序列 的 第 一 个 元 素 nodes.front 〈) 便 是 最 大 度 节 点 。 


paint 郧 数 的 实现 为 : 





1 void Node: :paint 


(Set& colorBox){ 





2 Set availColors=colorBox-exColors,; / /可 用 颜色 集合 
3 for(int i=0;i<availColors.count;i++){ 

4 if(availColors， get(1i))t{ 

5 color=i; 

6 var->regId=color; / 
7 degree=-1; 

8 for(int j=0;j<links.size();j++) / /关联 节点 
9 links[j]- 

addExColor (color); 

10 return ; 

11 } 

12 } 

13 degree=-1; 

14 } 


15 void Node: :addExColor 


(int color){ 


16 if(degree==-1)return,; // 已 经 着 


17 exColors.set(color); / /添加 排 了 


18 degree--; 


19 } 





第 2 行 计 算 节 点 可 以 使 用 的 颜色 集合 availColors， 第 4 行 表示 还 有 颜 
色 可 用 ， 将 颜色 编号 ji 保存 到 变量 的 regId 字 段 ， 表 示 为 变量 分 配 的 寄存 
器 编号。 














第 7 行将 degree 设 置 为 最 小 值 -1， 这 样 该 节点 束 不 会 成 为 度 最 大 的 节 


第 8~9 行 处 理 关 联 的 节点 ， 调 用 addExColor 为 关联 节点 添加 不 可 使 
用 颜色 。 





第 13 行 表示 节点 没有 可 用 颜色 ， 无 法 分 配 寄 存 器 ， 将 degree 设 置 为 - 
1 不 再 处 理 。 





第 17 行 将 节点 不 可 用 颜色 添加 到 exColor 字 段 ， 并 将 节点 的 度 -1 
相当 于 删除 了 该 节点 与 被 着 色 节 点 的 关联 边 。 


图 着 色 算 法 执行 完成 后 ， 每 个 变量 《全 局 变量 除外 ) 的 regId 字 段 都 
保存 了 变量 被 分 配 到 的 寄存 器 编号 。 如 果 该 字段 为 -1， 则 表示 变量 未 分 
配 到 寄存 器 。 





4.3.2 ”变量 栈 帧 偏 移 计 算 


在 前 面 对 符号 表 管 理 的 插 述 中 ， 每 次 癌 符 号 表 添 加 一 个 局 部 变量 
时 ， 都 会 调用 Fun 对 象 的 locate 函 数 为 变量 计算 相对 栈 帧 基 址 的 偏 移 ， 以 
保证 局 部 变量 的 正 稼 访问 。 然 而 ， 寄 存 器 分 配 后 ， 部 分 变量 被 保存 到 寄 
存 器 中 而 不 再 占用 内 存 。 因 此 ， 我 们 只 需要 为 不 能 分 配 到 寄存 器 的 局 部 
变量 分 配 内 存 即 可 ， 这 样 可 以 减少 栈 帧 空间 的 浪费 。 























如 图 4-11 所 示 ， 原 栈 帧 内 需要 保存 局 部 变量 a、b、c、d， 经 过 寄存 
器 分 配 后 ， 变 量 a 分 配 到 寄存 器 eax， 变 量 c 分 配 到 寄存 器 ebx， 而 变量 
b、d 仍 保存 在 内 存 中 。 将 栈 帧 紧凑 后 ， 原 变量 a、c 的 空间 被 删除 ， 而 变 
量 b、d 的 内 存 空 间 向 栈 帧 基 址 处 紧凑 。 栈 帧 紧凑 后 ， 变 量 b、d 相 对 于 栈 
帧 基 址 的 偏 移 发 生 了 变化 。 因 此 寄存 器 分 配 后 ， 如 果 要 对 栈 帧 内 存 进 
紧凑 ， 则 必须 重新 计算 局 部 变量 的 栈 帧 偏 移 。 





[ebp +2] [ebp+?] 
[ebp+*8] [ebp+8] 
[ebp-4] [ebp -4] 
[ebp-8] [ebp -8] 
[ebp-12] 
[ebp-16 ] 
a ) 原 栈 帧 b ) 紧凑 后 栈 帧 


图 4-11 局 部 变量 紧凑 





寄存 器 分 配 后 ， 变 量 的 regId 字 段 记 录 了 被 分 配 到 的 寄存 器 编号 ， 而 
regId=-1 的 变量 仍 需 保 存在 栈 帧 。 另 外 ， 中 间 代 码 的 OP_DEC 指 令 记 录 
了 局 部 变量 的 声明 顺序 。 根 据 这 些 信息 ， 我 们 确定 了 保留 在 栈 帧 内 的 所 
有 局 部 变量 。 但 是 不 同 作用 域 的 变量 可 能 拥有 同样 的 栈 帧 偏 移 量 ， 比 如 
代码 : 























if(x)t 

int a; 
}elsef{ 

int b; 





根据 符号 表 中 对 作用 域 管理 的 揪 述 ，if 分 支 作 用 域 和 else 分 支 作用 域 
拥有 相等 的 作用 域 基 址 ， 故 而 变量 a 和 b 的 栈 帧 偏 移 地 址 相同 。 所 以 重新 
计算 变量 栈 帧 偏 移 量 时 ， 需 要 明确 变量 所 在 的 作用 域 。 在 变量 Var 对 象 
内 ，scopePath 字 段 保存 了 变量 的 作用 域 路 径 ， 即 全 局 作用 域 到 变量 所 在 








作用 域 的 路 径 。 根 据 局 部 变量 的 作用 域 路 径 ， 可 以 完全 还 原 代 码 的 作用 
域 艇 套 结 构 。 例 如 代码 : 






































0 
void fun(){ / /函数 作用 域 
1 
int a; AAA 
if(a){int b;} //if 作 用 域 
2， 定 义 
b 
else { /At 
3 
int c; // 定 义 
C 
while(a){int d;} //While 作 用 域 
4， 定 义 
d 
} 
int e[10]; // 定 义 
e 
} 





所 有 局 部 变量 的 作用 域 路 径 为 : 





PATH(a, b, ce, d, e)={/0/1, /0/1/2, /0/1/3, /0/1/3/4, /0/1}. 








我 们 可 以 根据 如 下 栈 帧 偏 移 算法 构建 作用 域 树 ， 并 求解 变量 的 栈 帧 
偏 移 量 。 


1) 创建 根 作用 域 节点 09， 其 栈 帧 偏 移 初 始 化 为 0。 








2) 取 下 一 个 dec 指 令 保存 的 未 分 配 寄存 右 的 局 部 变量 ， 获 得 其 作用 
域 路 径 。 


3) 从 左 到 右 解析 作用 域 路 径 ， 并 从 树 根 处 开始 目 顶 癌 下 进行 匹 
配 。 如 有 果 作 用 域 节 氮 不 存在 则 创建 作用 域 节 点 ， 新 创建 的 作用 域 节 点 初 
始 化 为 父 节 后 的 栈 帧 仿 移 。 








4) 取出 作用 域 路 径 匹 配 结束 时 的 作用 域 节 点 ， 将 变量 的 大 小 球 加 
到 作用 域 节 点 的 栈 帧 偏 移 ， 并 将 新 的 栈 帧 偏 移 设 置 为 变量 的 栈 帧 偏 移 。 


5) 跳 转 到 2) 处 ， 直 到 所 有 的 指令 处 理 完毕 。 





假定 前 面 示例 代码 的 变量 都 未 分 配 到 寄存 器 ， 则 使 用 栈 帧 偏 移 算法 
构造 作用 域 树 ， 算 法 执行 流程 如 图 4-12 所 示 。 图 中 第 1 步 首先 将 根 的 作 
用 域 初 始 化 为 0， 其 作用 域 栈 帧 侦 移 初始 值 为 0， 当 前 值 为 0。 第 2 步 处 理 
局 部 变量 a 的 声明 ， 取 出 作用 域 路 径 %0O/1”， 与 作用 域 树 匹配 时 ， 不 存在 
节点 1， 因 此 创建 节点 1， 其 栈 帧 仿 移 初始 值 为 父 节 点 栈 帧 俩 移 的 当前 
值 ， 然 后 将 变量 a 的 大 小 4 累加 到 作用 域 1 的 栈 帧 仿 移 ， 因 此 得 到 变量 a 的 
栈 帧 偏 移 为 4。 类 似 地 ， 得 到 变量 b 的 栈 帧 偏 移 为 8， 变 量 c 的 栈 帧 偏 移 为 














8， 变 量 d 的 栈 帧 仿 移 为 122。 处 理 局 部 数组 e 的 声明 时 ， 取 出 作用 域 路 
径 %/0/1”， 与 作用 域 树 匹 配 得 到 布点 1， 作 用 域 节点 1 的 当前 栈 帧 偏 移 为 
4， 囚 加 变量 e 的 大 小 后 得 到 数组 e 的 栈 帧 偏 移 为 44。 


CR (0 )0:0 (0 )0:0 
(1)0:4 (3) 0:4 








4:8 (2 ) 


(1) 初 始 化 树 根 /0 “(2)int a 作用 域 /0/1 “(3)int b 作 用 域 /0/1/2 





(4)int c 作 用 域 /0/1/3 (5)int d 作 用 域 /0/1/3/4(6)int e[10] 作 用 域 /0/1 


图 4-12 ” 栈 帧 仿 移 计算 执行 流程 图 


作用 域 树 相 关 的 数据 结构 定义 为 : 





1 struct Scope 


struct scope_lesst{ 
bool operator()(Scope*left, Scope”* right)f{ 
return left->id<right->id; 
} 


}; 
int id; 


NAOPOWNm 


8 Int esp; 


9 Vector<Scope*> children,; // 子 作用 域 
10 Scope*parent; 
11 }; 


12 class CoGraph 


{ 


13 Scope* scRoot; 


14 }; 





类 型 Scope 表 示 作 用 域 树 的 节点 。 函 数 对 象 scope_less 用 于 比较 两 个 
作用 域 节点 的 大 小 ， 字 段 id 记 录 作 用 域 的 编写 ，esp 记 录 作 用 域 的 栈 帧 偏 
移 ，children 记 录 作 用 域 的 子 作 用 域 序列 ，parent 记 录 父 作用 域 节 点 。 冲 
突 图 类 型 CoGraph 内 的 scRoot 记 录 了 作用 域 树 的 树 根 。 


根据 作用 域 树 数据 结构 ， 栈 帧 偏 移 计算 算法 实现 如 下 : 





1 void CoGraph::stackAlloc 


(){ 

2 scRoot=new Scope(0,0); //t 
3 int max=0; 

4 for(list<InterIinst*>::iterator i=optCode.begin(); 

5 i!l=optCode.end();++i){ 

6 InterInst*inst=*i,; 

7 Operator op=inst. 

getop(); 

8 if(op==OP_DEC){ 


9 Var* arg1=Inst- 


getArg1( ) ， 
10 if(arg1i->regId==-1){ 


11 int& esp=getEsp(arg1->getPpath()); / /作用 域 
esp 

12 int size=arg1i->getSize(); 

13 size+=(4-size%4 )%4; 

14 esp+=size,; 

esp 

15 arg1->setOoffset(-esp); /Ai 
16 if(esp>max)max=esp,; 

17 } 

18 } 

19 

20 fun->setMaxDep(max); 

21 } 





第 2 行 创 建 根 作用 域 节 点 ， 即 全 局 作用 域 0， 第 3 行 的 max 变 量 记 录 
栈 帧 紧凑 后 的 栈 帧 大 小 。 





第 4~9 行 遇 历 中 间 代 人 码 ， 并 取出 局 部 变量 声明 指令 OP_DEC 和 局 部 


变量 arg1。 





第 10 行 判断 变量 的 regId 如 果 等 于 -1， 表 示 变 量 没 有 分 配 到 寄存 器 ， 
需要 计算 栈 帧 偏 移 。 





第 11 行 调用 getEsp 函 数 取 出 变量 所 在 作用 域 节点 的 esp 变 量 。 


第 12~14 行 将 变量 大 小 按照 4 字 节 对 齐 后 ， 


esp。 


第 15 行 将 值 -esp 设 置 为 变量 的 栈 帧 偏 移 ， 





第 20 行 将 紧凑 后 的 栈 帧 大 小 保存 到 函数 对 象 。 


函数 getEsp 根 据 变 量 的 作用 域 路 径 伍 询 或 构建 作用 域 树 。 


索 计 到 作用 域 栈 帧 偏 移 


第 16 行 计算 栈 帧 的 大 小 ， 





1 int& CoGraph::getEsp 


ER path)f{ 


5 


JI 人 


13 


Scope* scope=scRoot; 
for(unsigned int i= 1; i<path.size();i++) 


scope=scope->find(path[i]); 
return scope->esp; 


Scope: :find 
Scope*sc=new Scope(i,esp); 


vector<Scope*>::iterator pos=lower_bound 
(children.begin(),children.end(),sc,scope_less()); 

if(pos==children.end() || (*pos)->id!=i){ 
children.insert(pos, sc); 


sc->parent=this; 


} 

elsef 
delete sc,; 
sc=*pos; 


return sc; 


/ /查找 作用 域 


/ /创建 子 


// 


第 3~4 行 从 左 向 右 处 理 作用 域 路 径 path 的 每 个 作用 域 编号 ， 并 以 此 
为 参数 调用 find 查 询 作用 域 节 点 ， 记 录 到 scope。 作 用 域 路 径 志 历 结 
后 ，scope 内 保存 了 作用 域 路 径 path 对 应 的 作用 域 对 象 。 








函数 find 根 据 编号 查找 当前 作用 域 的 子 作 用 域 。 第 8 行 创 建 查 询 节 点 
sc， 第 9~10 行 使 用 二 分 碍 找 算 法 和 查询 作用 域 编 号 为 参数 ji 的 作用 域 节 点 ， 
比较 函数 为 scope_less。 








第 12~13 行 表示 为 但 询 到 编写 为 的 作用 域 节点 ， 将 编号 的 作用 域 节 
点 插入 到 children 序 列 ， 并 记录 当前 作用 域 节 点 到 新 创建 的 子 作 用 域 的 


parent 字 段 。 





第 16~17 行 表示 找到 了 编号 为 i 的 作用 域 节 点 ， 于 是 将 查询 市 点 删 
除 ， 并 返回 查找 到 的 作用 域 节 点 。 


通过 图 着 色 算 法 和 栈 帧 偏 移 计算 ， 完 成 了 变量 的 寄存 器 分 配 和 栈 帧 
内 存 的 紧凑 ， 为 生成 更 高 效 的 目标 代码 提供 了 可 能 。 不 过 本 节 设 计 的 寄 
存 占 分 配方 案 只 是 一 种 粗略 的 实现 ， 与 现代 编译 占 的 寄存 器 分 配 还 有 很 
大 关 距 ， 仅 说 明了 寄存 器 分 配 的 主要 思想 。 在 目标 代码 生成 阶段 ， 需 要 
考虑 的 问题 还 有 很 多 。 








对 于 CISC 指 令 集 ， 通 用 寄存 器 的 个 数 十 分 有 限 。 在 32 位 的 x86 指 令 
集中 ， 通 用 寄存 器 只 有 8 个 ， 除 去 寄存 器 ebp 和 esp 用 于 函数 栈 帧 管理 不 


能 用 于 存放 操作 数 和 计算 结果 外 ， 目 标 代 码 生成 时 还 使 用 了 额外 的 通用 
寄存 器 用 于 缓存 操作 数 和 计算 结果 ， 因 此 留 给 寄存 占 分 配 的 寄存 此 资源 
就 更 加 紧张 了 。 如 果 使 用 前 面 揪 述 的 目标 代码 生成 算法 ， 本 市 实现 的 寄 
存 占 分 配 算法 可 能 更 适用 于 RISC 指 令 集 ， 因 为 RISC 指 令 集 提供 了 更 多 
的 通用 寄存 器 。 








不 同 的 函数 将 寄存 器 分 配给 目 身 的 变量 ， 那 么 在 函数 调用 前 后 需要 
对 通用 寄存 器 进行 保存 和 恢复 操作 ， 以 避免 奇人 存 器 数据 的 混乱 。 另 外 ， 
我 们 为 函数 的 参数 分 配 了 寄存 右 ， 为 了 保证 函数 对 参数 访问 时 ， 参 数值 
已 经 保存 在 寄存 器 ， 必 须 在 函数 最 开始 执行 时 将 参数 加 载 到 对 应 的 寄存 
器 。 











4.4” 舌 了 筷 优化 


目标 代码 生成 阶段 ， 产 生 的 汇编 代码 并 非 足够 简洁 ， 其 中 可 能 存在 
可 以 化 简 的 指令 序列 。 比 如 表达 式 “a=b+c; ”， 假 设 变 量 a、b、c 都 是 全 
局 int 变 量 ， 那 么 生成 的 汇编 代码 可 能 为 : 


mov eaxy [b] 
mov ebx,[c] 
add eax, ebx 
mov [cl],eax 


天 ODP 


我 们 希望 最 终 的 汇编 代码 形式 为 : 





mov eaxy [b] 
add eaxy [c] 
mov [c],eax 


这 是 因为 x86 指 令 集 提供 了 操作 数 为 寄存 器 和 内 存 的 add 指 令 ， 因 此 
可 以 将 指令 2 和 3 合并 为 一 条 指令 。 我 们 可 以 借鉴 完了 筷 优化 的 思想 ， 实 现 
对 汇编 代码 的 优化 。 


颖 孔 优 化 右 对 目标 代码 线性 扫描 ， 使 用 一 个 固定 大 小 的 请 动 窗 口 监 
视 扫描 位 置 的 代码 序列 ， 并 将 该 序列 与 已 设 定 的 代码 模板 进行 匹配 ， 执 
行 指令 的 蔡 换 、 消 除 、 合 并 等 优化 动作 。 如 图 4-13 所 示 ， 滑 动 窗口 〈 图 
中 黑色 区 域 ) 发 现 局 部 代码 序列 “mov ebx，[c]” 和 “add eax，ebx” 与 已 有 
的 代码 模板 匹配 ， 因 此 使 用 对 应 的 代码 简化 规则 将 其 化 简 为 “add eax， 





[cj”。 然 后 窗口 继续 回 后 滑动 ， 移 入 后 续 的 指令 ， 重 复 以 上 过 程 。 


mov ebx [c] 
add eax ,ebx 


mov eax [b] 
add eax [c] 
mov [a] eax 





图 4-13 ” 蜂 孔 优化 





为 了 简化 问题 的 讨论 ， 我 们 假定 滑动 窗口 的 大 小 为 2， 且 代码 模板 
匹配 成 功 后 ， 使 用 一 条 指令 丛 换 请 动 窗口 的 代码 序列 。 


蜂 孔 优化 涉及 的 数据 结构 定义 如 下 。 





1 class Window 





{ 
2 list<Asm*> cont; / /窗口 内 的 指令 











3 list<Asm*>& code,; / /目标 代码 序列 





4 list<Asm*>::iterator pos / /窗口 位 置 


























5 void replace(Asm* inst); / /代码 化 简 

6 public: 

7 bool move(); / /窗口 移动 函数 
8 bool match(); / /指令 模板 匹配 
9 }; 

10 class PeepHole 

{ , 

11 list<Asm*>& code,; // 目 标 代码 序列 
12 public: 

13 void filter(); // 罕 孔 优化 
14 }; 











请 动 窗口 类 Window 的 定义 中 ， 字 段 cont 表 示 被 滑动 窗口 “监视 ”的 指 
令 序 列 ，code 为 目标 代码 序列 ，pos 字 段 表示 请 动容 口 在 目标 代码 的 位 
置 。 函 数 move 用 于 向 后 移动 滑动 窗口 ，match 将 窗口 内 的 指令 序列 与 代 
码 模 板 匹 配 ， 并 调用 replace 函 数 对 代码 进行 化 简 。 











蜂 孔 优化 类 PeepHole 的 定义 中 ， 字 段 code 表 示 目 标 代码 序列 ， 函 数 
filter 进 行 笑 孔 优 化 操作 。 











类 Window 的 move 函 数 实现 滑动 窗口 回 后 移动 ， 实 现代 码 为 : 





1 bool Window: :move 


— 
ey 


for(pos==code.end()){ 
Arm* inst=*pos; 
cont.pop_front(); 
cont.push_back(inst); 
pos++, 
return true; 


POONORON 


return false; 


© 
i 











由 于 限定 滑动 窗口 的 大 小 为 2， 且 只 使 用 一 条 指令 执行 化 简 操 作 。 
因此 窗口 诊 动 时 ， 只 需要 将 窗口 内 移入 一 条 后 继 指令 即 可 。 








第 4~5 行 将 cont 的 首 元 素 弹 出 ， 然 后 压 入 后 继 指 令 。 第 6 行 系 加 背 动 
窗口 的 位 置 。 





类 Window 的 match 函 数 实 现代 码 模板 的 匹配 ， 实 现代 码 为 : 





1 void Window: :match 


(){ 
2 ASsm& inst1=**cont.front(); / /取出 指令 


OP 


Asm& inst2=**cont.back(); // 取 出 指令 


2 

4 Asmop op1i=inst1.op; 

5 AsmArg a1i1i=inst1.arg1; 
6 AsmArg al2=inst1,arg2， 
7 AsmOp op2=inst2.op; 

8 AsmArg a21=inst2.arg1; 





9 AsmArg a22=inst2.arg2; 

10 if(op1.isMov()&&op2.isAdd( )&& 

11 ali.isReg( )&&a21.isReg( )&&a22.isReg( )&&a1l1l==a22){ 

12 replace(new Asm("add",a21,a12)); 

13 } 

14 else if / /其 他 指 











15. 二 


16 } 
17 void Window: :replace 


(Asm* inst){ 
18 cont .front()->SsetDead() ， 


19 *cont.back()=*inst; 
20 delete inst ， 
21 } 





第 2~9 行 ，match 函 数 将 请 动 窗口 内 的 指令 的 内 容 取出 。 


第 10~12 行 执行 代码 模板 匹配 ， 该 代码 模板 来 源 于 图 4-13 的 例子 。 
即 判 断 如 果 指 令 1 是 mov 指 令 ， 指 令 2 是 add 指 令 ， 指 令 1 的 第 一 个 操作 数 
和 指令 2 的 第 二 个 操作 数 都 是 寄存 器 且 为 同一 个 寄存 器 ， 指 令 2 的 第 一 个 
操作 数 也 是 寄存 器 ， 那 么 将 这 两 条 指令 化 简 为 一 条 add 指 令 ， 操 作 数 1 为 
指令 2 的 第 一 个 操作 数 ， 操 作 数 2 为 指令 1 的 第 二 个 操作 数 。 








代码 化 简 由 replace 实 现 ， 第 18~19 行 描述 了 化 简 的 过 程 。 由 于 滑动 
窗口 的 大 小 为 2， 因 此 只 需要 将 第 一 条 指令 设置 为 死 指 令 ， 将 第 二 条 指 
令 的 内 容 用 新 指令 答 换 。 这 样 当 窗 口 移动 后 ， 标 记 为 死 的 指令 从 滑动 窗 
口中 移出 ， 被 从 换 的 指令 可 以 与 后 继 指 令 形成 新 的 组 合 再 与 代码 模板 匹 
配 。 





上 述 代码 只 给 出 了 图 4-13 描 述 的 代码 模板 的 匹配 实现 ， 我 们 可 以 根 
据 实际 需要 添加 新 的 代码 模板 和 对 应 的 简化 规则 ， 这 体现 了 帘 孔 优化 算 
法 的 灵活 性 。 





根据 背 动 窗口 的 move 和 match 函 数 ， 实 现 舌 了 筷 优 化 的 代码 为 : 


1 void PeepHole::filter 





(){ 

之 Window win(code); 

3 bool flag=false; / /记录 匹配 成 : 
4 dof 

5 win.match(); / /执行 匹 
6 }while(win.move())， / /移动 涓 
7 list<Asm*>::iterator i=code.begin(),Kk=i; 

8 for(;i!=code.end();i=k){ / /清除 死 指 < 
9 二 二 > 

10 if((*i)->isDead()) 

11 code.remove(i); 

12 } 





第 2 行 创建 滑动 窗口 win， 第 4~6 行 通过 循环 调用 move 函 数 将 滑动 窗 
口 同 后 移动 ， 并 且 每 次 窗口 滑动 后 ， 都 会 调用 match 函 数 与 代码 模板 库 
进行 匹配 ， 执 行 蔡 换 等 操作 进行 目标 代码 优化 。 








4.5 ”本 章 小 结 





本 章 通 过 对 中 间 代 码 优化 和 目标 代码 优化 的 知 干 经 典 优化 算法 的 实 
现 ， 描 述 了 编译 优化 右 的 实现 方式 。 我 们 从 数据 流 分 析 框 架 开 始 ， 讨 论 
了 中 间 代 码 优化 算法 的 实现 。 和 音量 传播 将 变量 的 初始 值 传递 到 表达 陈 计 
算 指令 中 ， 复 写 传 播 降低 了 变量 之 间 的 关联 程度 ， 从 而 为 死 代码 消除 提 
供 更 多 的 可 能 ， 死 代码 消除 根据 变量 的 活跃 性 分 析 消 除 对 程序 结果 无 影 
啊 的 指令 。 和 寄存 器 分 配 的 图 着 色 算 法 也 使 用 了 变量 的 活跃 性 信息 数据 
流 ， 同 时 为 了 紧凑 栈 帧 内 存 ， 讨 论 了 变量 栈 帧 偶 移 的 计算 方法 。 最 后 ， 
我 们 使 用 颖 孔 优 化 的 方式 对 目标 代码 进行 了 优化 。 至 此 ， 我 们 完成 了 纺 
译 优化 器 的 所 有 实现 。 

















第 5 章 ”二 进 制 表示 


一 一 《论语 》 


经 过 编译 器 的 处 理 ， 高 级 语言 程序 被 转化 为 目标 机 器 的 汇编 代码 。 
根据 编译 系统 的 流程 ， 下 一 步 便 是 将 汇编 代码 转化 为 目标 机 器 的 二 进 制 
旨 令 。 鉴 于 汇编 器 的 实现 过 程 中 ， 窑 涉 了 大 量 机 右 指 令 和 目标 文件 格式 
的 内 容 ， 因 此 ， 在 描述 汇编 占 的 实现 前 ， 需 要 对 此 有 清晰 的 了 解 。 








在 编译 器 的 构造 阶段 ， 除 了 代码 生成 阶段 要 考虑 程序 的 运行 时 存 
储 ， 我 们 不 需要 关心 太 多 底层 的 细节 。 而 在 汇编 器 和 链接 器 的 构造 阶 
段 ， 必 须 清楚 了 解 二 进 制 代码 和 二 进 制 文件 的 细节 。 我 们 的 编译 器 产生 
的 是 Intel x86 汇 编程 序 ， 而 编译 系统 生成 的 二 进 制 文件 是 Linux 系 统 下 的 
ELEF 文 件 格 式 的 文件 。 因 此 ， 本 章 讨论 的 主题 是 x86 指 令 格式 和 ELEF 文 件 
格式 。 








5.1 X86 指 令 


要 了 解 Intel x86 指 令 格式 的 细节 ， 最 好 的 参考 资料 英 过 于 Intel 指 令 
开发 手册 ， 不 过 上 干 页 的 开发 手册 令 人 难以 抓 到 重点 。 我 们 构造 编译 系 
统 的 目的 一 方面 是 透析 编译 的 细节 和 流程 ， 男 一 方面 也 试图 深入 了 解 
Intel 的 体系 结构 和 指令 格式 的 细节 。 当 然 ， 本 书 参考 了 Intel 指 令 开发 手 
册 的 部 分 内 容 ， 尽 可 能 将 指令 的 细节 展示 出 来 。 


图 5-1 描 述 了 x86 指 令 的 通用 格式 。 一 般 的 x86 指 令 包 含 6 个 部 分 : 指 
令 前 级 (Instruction Prefix) 、 操 作 码 〈Opcode) 、ModR/M 字 上 段 、SIB 


字段 、 偏 移 (Displacement) 和 立即 数 (Immediate) 。 











前 组 操作 码 ModR/M SIB 偏 移 立即 数 
765 时 0 765 3 2 0 
| mod |reg/opcode| rm | scale| index | base | 


图 5-1 x86 指 令 格 式 


指令 中 一 定 会 包含 操作 码 字 段 ， 它 表示 指令 的 功能 ， 而 其 他 字段 都 
是 可 选 的 。x86 采 用 不 定 长 指令 编码 ， 正 常 的 x86 指 令 长 度 最 短 为 1 个 字 
节 ， 最 长 为 15 个 字 节 。 指 令 前 缀 为 指令 提供 附加 的 功能 ，ModR/M 和 


SIB 字 段 一 般 提 供 操作 数 的 访问 模式 ， 偶 移 和 立即 数字 段 直接 编码 到 指 





令 内 部 。 下 面 对 这 些 字段 的 细节 逐一 进行 说 明 。 


5.1.1 指令 前 级 





在 前 面 讨论 的 编译 器 实现 中 ， 并 未 生成 包含 指令 前 缀 的 汇编 指令 
指令 前 绷 一 般 用 于 增强 指令 功能 ， 调 整 内 存 操作 数 访问 属性 等 。 
指令 前 组 可 以 分 为 如 下 几 类 ; 


1) 操作 数 大 小 重 写 前 级 。 二 进 制 编码 为 0x66。 操 作 数 大 小 重 写 发 
生 在 指令 操作 数 大 小 与 当前 汇编 上 下 文 默认 操作 数 大 小 不 一 致 的 情况 。 
例如 32 位 汇编 语言 指令 : 











mov eax,1 





其 指令 编码 为 : 





b8 01 00 00 00 








而 在 16 位 汇编 语言 中 ， 不 能 直接 访问 寄存 器 eax， 因 此 上 述 指令 编 
码 的 实际 含义 为 ; 





mov ax,1 





如 果 16 位 汇编 语言 要 访问 32 位 寄存 器 eax， 必 须 使 用 前 绥 修 改 操 作 
数 大 小 : 


66 


b8 01 00 00 00 





通过 加 入 操作 数 大 小 重 写 前 级 ， 达 到 “强制 ”访问 32 位 寄存 器 eax 的 
目的 。 类 似 的 情况 也 及 生 在 32 位 汇编 语言 访问 16 位 寄存 右 的 情况 。 


2) 地 址 大 小 重 写 前 级 。 二 进 制 编码 为 0x67。 地 址 大 小 重 写 发 生 在 
旨 令 内 存 操 作 数 地 址 大 小 与 当前 汇编 上 下 文 默认 地 址 大 小 不 一 致 的 情 
况 。 例 如 32 位 汇编 语言 指令 : 











mov eax, [0x12345678] 





其 指令 编码 为 : 





al 78 56 34 12 





而 在 16 位 汇编 语言 中 ， 不 能 直接 访问 32 位 地 址 ， 因 此 上 述 指 令 编码 
内 的 地 址 被 截断 : 





al 78 56 





实际 汇编 指令 形式 为 : 


mov ax, [0x5678] 





如 果 16 位 汇编 语言 要 访问 32 位 地 址 ， 必 须 使 用 前 级 修改 地 址 大 小 : 
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al 78 56 34 12 





通过 加 入 地 址 大 小 重 写 前 级 ， 达 到 “强制 ”访问 32 位 地 址 的 目的 。 类 
似 的 情况 也 发 生 在 32 位 汇编 语言 访问 16 位 地 址 的 情况 。 


3) 段 重 写 前 级 。 如 果 要 修改 指令 内 存 操作 数 的 段 寄存 占 ， 则 需要 
使 用 段 重 写 前 级 。 例 如 指令 : 





mov eax, [ebx] 





该 指令 使 用 ebx 寄存 器 间 址 访问 内 存 ， 默 认 当 前 段 寄 存 需 为 数据 段 
寄存 器 dg。 如果 需要 指定 段 寄 存 器 为 ee， 那么 指令 形式 为 : 





mov eaxy es 


: [ebx] 





对 应 的 指令 编码 为 : 





26 


89 03 








其 中 0x26 表 示 段 寄存 器 es 对 应 的 指令 前 经。 不同 段 寄 存 右 对 应 指令 
前 级 的 二 进 制 编码 见 表 5-1。 


表 5-1 段 重 写 前 绥 


段 寄存 融 
指令 前 组 








在 32 位 内 存 模式 下 ， 对 内 存 操作 数 的 段 重 写 已 经 失去 意义 。 无 论 是 
为 内 存 操作 数 指定 段 寄存 器 还 是 指定 不 同 的 段 寄 存 器 ， 都 不 会 影响 指令 
的 功能 。 


4) 重复 执行 指令 前 级 。 包 括 rep/repz 和 repnz 指 令 前 级 ， 对 应 的 二 
进 制 编码 分 别 为 0xf3 和 0xf2。 该 类 指令 一 般 用 于 串 操 作 指 令 ， 例 如 : 





movsb 





旨 令 编码 为 : 





f3 


a4 





5) lock 前 级 。 二 进 制 编码 为 0xf0。 该 指令 用 于 指令 执行 时 锁定 地 
址 总 线 ， 保 证 对 称 多 处 理 器 (SMP) 环境 下 对 内 存 数据 访问 的 原子 性 。 
例如 : 











lock 


add eax, [ebx] 


一 


指令 编码 为 : 





fo 


01 03 





6) 分 支 提示 前 缀 。 分 支 提示 前 缓 仅 用 于 条 件 跳 转 指令 Jcc， 表 示 条 
件 跳 转 在 大 多 数 情况 下 是 否 发 生 。 前 组 ht 表示 Jcc 指 令 大 多 数 情况 跳 转 成 
功 ， 二 进 制 编码 为 0x3e， 前 缀 hnt 表 示 Jec 指 令 大 多 数 情况 不 发 生 跳 转 ， 
二 进 制 编码 为 0x2e。 例 如 指令 : 

















该 指令 表示 jne 指 令 大 多 数 情 况 不 会 跳 转 到 L， 其 指令 编码 为 : 





2e 


of 85 00 00 00 00 








以 上 讨论 了 传统 的 x86 指 令 前 级 ， 在 AMD 推 出 x86 扩 展 64 位 技术 之 
后 ， 增 加 了 新 的 用 于 访问 64 位 数据 的 指令 前 级 REX prefix) ， 而 原本 
的 x86 指 令 前 级 称 为 原始 前 级 (Legacy prefix) 。 因 此 64 位 汇编 指令 可 以 
使 用 这 两 类 指令 前 级 ， 而 32 位 汇编 指令 仅 能 使 用 Legacy 前 级 。 由 于 我 们 
只 关心 32 位 汇编 指令 的 内 容 ， 因 此 不 再 对 REX 前 级 进行 深入 讨论 。 





5.1.2 ”操作 码 


中 令 的 操作 码 表 达 了 指令 的 基本 功能 ， 是 指令 中 必 不 可 少 的 字段 ， 
其 长 度 为 1~3 字 节 不 等 。1 字 节操 作 码 与 指令 前 级 共享 指令 第 一 个 字 节 的 
空间 (0x00 一 0xff) ， 这 是 因为 指令 前 级 是 可 选 的 ，CPU 的 解码 器 根据 
指令 第 一 个 字 节 的 值 确 定 该 字 节 是 指令 前 级 还 是 操作 码 。 比 如 过 到 指令 
第 一 个 字 节 为 0x66， 则 为 操作 数 大 小 重 写 前 级 。 如 果 表 到 0xb8， 则 为 
mov 指 令 的 一 种 操作 码 。2 字 节操 作 码 总 是 以 0x0f 开 始 ， 紧 跟 男 一 个 字 
节 。 其 中 0x0f 字 节 称 为 操作 码 的 转 义 前 级 (Escape Prefix) 或 转 义 操作 
码 。 例 如 jne 指 令 的 操作 码 为 “0f 85”。 与 2 字 节操 作 码 类 似 ，3 字 节操 作 码 
也 是 使 用 转 义 前 缀 的 方式 进行 扩展 编码 。3 字 节操 作 码 的 转 义 前 缀 包 
含 “0f 38” 和 “0f 3a” 两 种 ， 转 义 前 级 后 紧 跟 男 一 个 字 节 共同 表示 操作 码 。 











我 们 设计 的 编译 器 生成 的 汇编 指令 的 操作 码 长 度 都 是 2? 字 节 以 六， 
因此 我 们 只 讨论 1 字 市 和 2 字 节 的 操作 码 。 根 据 操作 码 表达 指令 功能 的 不 
同方 式 ， 将 第 见 的 指令 操作 码 分 为 四 类 分 别 讨论 。 





1) 操作 码 独立 表示 指令 功能 。 对 于 1 字 节 长 度 指令 ， 其 操作 码 表 
达 了 指令 的 所 有 含义 。 如 表 5-2 中 指令 ret 二 进 制 编码 为 0xcb。 类 似 的 1 字 


节 编 码 的 指令 比较 少 ， 比 如 nop、leave、int 3 等 。 





表 5-2 ”操作 码 表 (一 ) 



































指 仿 操作 码 ( 0x ) 举 例 
ret cb ret 
nop 90 nop 
leave ca leave 
了 了 ; 沪 Se mb 党 
jne rel32 0 85 jne 工 
jmp rel32 e9 jmp 荆 
call rel32 e983 cull 法 ua 
int imm8 cd int Ox80 
push imm32 68 push 0x12345 


更 常见 的 是 操作 码 后 附加 操作 数 的 指令 。 比 如 前 面 讨论 过 的 条 件 跳 
转 指令 〈Jcc) 的 jne 指 令 ， 便 是 操作 码 “0f 85” 后 紧 跟 4 字 节 的 目标 标签 的 
相对 地 址 。 类 似 的 指令 包括 Jcc、jmp、call、int、push， 其 中 rel32 表 示 
32 位 相对 地 址 ，imm8 表 示 8 位 立即 数 ，imm32 表 示 32 位 立即 数 。 


仅 使 用 操作 码 束 能 表达 功能 的 指令 ， 其 操作 数 形式 都 比较 简单 。 妆 
操作 数 访 问 模 式 复杂 时 ， 则 需要 使 用 ModR/M 和 SIB 字 段 补充 指令 的 功 
能 。Intel 指 令 系 统 将 操作 数 寻 址 模式 相同 的 一 类 指令 组 成 一 组 ， 使 用 共 
同 的 操作 码 表示 ， 这 样 的 操作 码 称 为 组 属性 操作 码 。 我 们 根据 不 同 的 指 
令 对 操作 码 补 充 方式 的 不 同 ， 将 操作 码 又 分 为 以 下 (2) 、 《3) 、 

(4) 所 述 的 三 类 。 


2) 组 属性 操作 码 ，ModR/M 和 SIB 字 段 仅 指定 操作 数 访 问 模式 。 这 
类 操作 码 仅 定义 了 指令 的 基本 框架 ， 并 未 明确 具体 的 操作 数 ， 有 具体 的 操 
作 数 由 ModR/M 和 SIB 字 段 给 出 。 





如 表 5-3 所 示 ， 其 中 r32 表 示 32 位 寄存 器 ，Ym32 表 示 32 位 寄存 器 或 内 


存 操作 数 。 例 如 指令 “movr32，rm32” 的 操作 码 0x8b 仅 表示 该 指令 可 以 
从 32 位 寄存 器 或 内 存 中 取出 数据 保存 到 32 位 寄存 右 中 ， 但 并 未 说 明 具 体 
是 哪个 寄存 器 和 内 存 地 址 。 而 ModR/M 和 SIB 字 段 提 供 了 这 样 的 信息 ， 
这 两 个 字段 的 具体 细节 后 面 会 详细 解释 。 类 似 的 指令 还 有 add、sub、 


cmp、lea、SETcc 指 令 等 。 





表 5-3 ”操作 码 表 (二) 
































指 令 操作 码 ( 0x ) 举 例 
mov r32,r/m32 8b mov eax,ebx 
mov r/m32,r32 89 mov [eax],ebx 
add r32,r/m32 03 add eax,ebx 
add r/m32,r32 01 add [eax],ebx 
sub r32,r/m32 2b sub eax,ebx 
sub r/m32,r32 29 sub [eax],ebx 
cmp r32,r/m32 3b cmp eax,ebx 
cmp r/m32,r32 39 cmp [eax],ebx 
lea r32,r/m32 8d lea eax, [ebx] 

sete r8 0f 94 sete al 


3) 组 属性 操作 码 ，ModR/M 的 reg 字 段 对 操作 码 作 补充 。 前 面 讨论 
的 ModR/M 字 有 段 仅 提供 了 指令 的 操作 数 访 问 模式 信息 ， 除 此 之 外 ， 
ModR/M 的 reg 字 段 还 具有 对 组 属性 操作 码 进行 补充 的 功能 ， 即 反作用 于 
操作 码 。 


ModR/M 字 市 的 3~5 位 表示 reg 字 段 ， 取 值 范 围 为 0~7， 该 字段 可 以 对 
组 属性 的 操作 码 进行 补充 。 表 5-4 操 作 码 列 中 的 “/* 符 号 后 的 数字 表示 reg 
字段 的 值 ， 例 如 imul 和 idiv 指 令 的 操作 人 码 都 是 0xf7， 当 reg=5 时 表示 imul 


指令 ， 当 reg=7 时 表示 idiv 指 令 。 





表 5-4 ”操作 人 码 表 (三) 
































指 令 操作 码 ( 0x ) 举 例 
imul r/m32 和 了 9 imul ebx 
idiv r/m32 ET Fn idiv ebx 

neg r/m8 £6 /3 neg al 

( 续 ) 

指 令 操作 码 ( 0x ) 举 例 
neg r/m32 £7 区 3 neg eax 

inc r/m8 fe /0 inc al 

dec r/m8 fe /1 dec al 

add r32,imm32 al WO add eax, 0x12345 
sub r32,imm32 有 二 六 sub eax, 0x12345 
cmp r32,imm32 和 和 光学 cmp eax, 0x12345 








4) 组 属性 操作 码 ， 寄 存 器 编写 补充 操作 人 码 。 除 了 ModR/M 的 reg 字 
段 可 以 对 操作 码 进行 补充 外 ， 寄 存 器 本 映 的 编写 也 可 以 对 操作 人 码 进 行 补 
a 





如 表 5-5 所 示 ，inc 指 令 的 组 属性 操作 码 为 0x40， 当 指定 了 具体 的 操 
作 数 寄存 器 后 ， 需 要 将 该 寄存 器 的 编写 累加 到 操作 码 中 ， 类 似 的 指令 还 


有 dec、push、pop、mov 等 。 


表 5-5 ”操作 码 表 (站) 
指 令 举例 


ine 天 32 40+reg inc eax 





dec r32 48+reg dec eax 





push r32 50+reg push eax 
pop r32 58+reg pop eax 


mov r32,imm32 b8+reg mov eax, 0xl12345 














Intel 指 令 集中 的 寄存 右 编 写 都 是 固定 的 ， 第 见 的 寄存 器 编写 的 值 如 





表 5-6 所 示 。 








寄存 器 编号 
8 位 寄存 器 
16 位 寄存 器 
32 位 寄存 器 











我 们 发 现 通 用 寄存 器 的 eax、ebx、ecx、edx 的 编号 并 不 是 按照 名 字 
递增 的 顺序 编号 ， 而 是 被 分 别 编号 为 0(、3、1、2， 这 点 需要 注意 。 


5.1.3 “ModR/M 字 段 


在 讨论 操作 码 的 内 容 时 ， 我 们 涉及 了 ModR/M 字 段 〈 见 图 5-2) 对 操 
作 码 补充 或 标识 操作 数 访 问 模 式 的 功能 ， 下 面 详 细 讨论 该 字段 的 具体 合 
> 


Fi 三 汉 “ 沁 0 


oa reg7opcode | rm 


图 5-2 ”ModR/M 字 段 


ModR/M 字 段 长 度 为 1] 字 节 ， 其 中 0~2 位 为 rm 字段 、3~5 位 为 reg 字 
段 、6~7 位 为 mod 字 段 。reg 字 段 保 存 寄 存 器 编号 或 操作 码 的 补充 信息 。 
rm 字段 表示 另 一 个 操作 数 ， 也 保存 寄存 器 编号 ， 该 编号 指定 的 寄存 器 
中 可 能 是 操作 数 本 身 ， 也 可 能 是 存放 与 操作 数 的 内 存 地 址 相关 的 信息 。 
mod 字 段 为 rm 字段 指定 具体 的 操作 数 模式 ，Ym 字 段 内 保存 寄存 器 编 
号 ， 根 据 不 同 mod 的 值 确定 该 寄存 器 是 寄存 器 操作 数 ， 还 是 需要 寻 址 的 
内 存 操作 数 。 如 表 5-7 所 示 。 























表 5-7 mod 字段 含义 











mod rm 寻 址 模式 举 例 

00 寄存 器 间 址 [eax] 

01 寄存 器 基 址 +8 位 偏 移 [eax+4] 

10 | 寄存 器 基 址 +32 位 偏 移 | [eax+0x12345] 





1 寄存 器 操作 数 eax 








当 mod=0b11 时 ，rm 字 段 表示 寄存 器 操作 数 ， 保 存 了 寄存 器 的 编 
号 。 当 mod 取 其 他 值 时 ，rm 字 段 表示 内 存 操作 数 ， 保 存 了 通过 寄存 器 寻 
址 的 寄存 器 编号 。 其 中 mod=0b00 时 ， 表 示 寄 存 器 间 址 。mod=0b01 时 ， 
表示 寄存 器 基 址 +8 位 偏 移 的 内 存 寻 址 。mod=0b10 时 ， 表 示 寄 存 器 基 址 
+32 位 偏 移 的 内 存 寻 址 。 














例如 0x8b 表 示 指 令 “mov r32，r/m32” 的 操作 码 ， 其 中 r32 对 应 reg 字 
段 ，Vvm32 对 应 wm 字段 。 由 此 指令 “mov ecx，eax” 的 编码 为 : 





8b c8 





其 中 ，0xc8 为 ModR/M 字 段 的 值 ， 表 示 为 二 进 制 形 式 为: 





11 001 000 








可 以 看 出 mod=0b11， 表 示 m 字 段 为 寄存 器 操作 数 。reg=0b001， 表 
示 mov 指 令 的 操作 数 r 32=ecx。r/m=0b000， 表 示 mov 指 令 的 男 一 个 操作 
数 vm32=eax。 因 此 ， 二 进 制 编码 “8b c8” 表 达 了 汇编 指令 “mov ecx， 


eax” 的 完整 信息 。 


类 似 地 ， 指 令 “mov ecx，[eax]” 的 ModR/M 的 mod 字 段 为 0b00， 表 示 
r/m 字 上 段 为 寄存 器 则 址 ， 其 他 字段 不 变 ， 指 令 编 码 为 : 





8b 08 





而 对 于 指令 “mov ecx，[eax+4]” 的 ModR/M 的 mod 字 上 段 为 0b01， 表 示 
r/m 字 上 段 为 寄存 器 基 址 +8 位 偏 移 寻 址 。 其 他 字段 不 变 ， 但 是 需要 增加 1 字 
节 的 偏 移 字段 0x04。 指 令 编 码 为 。 








8b 48 04 


类 似 地 ， 指 令 “mov ecx，[eax+0x12345678]” 的 ModR/M 的 mod 字 上 段 
为 0b10， 表 示 r/m 字 上 段 为 寄存 器 基 址 +32 位 偏 移 寻 址 。 其 他 字段 不 变 ， 但 


是 需要 增加 4 字 节 的 偏 移 字 上段 0x12345678。 指 令 编 码 为 : 











8b 88 78 56 34 12 





这 里 需要 注意 的 是 ， 对 于 指令 中 编码 的 偏 移 或 立即 数 ， 都 是 按照 小 
端 字 节 序 (Little Endian〉 的 方式 存储 的 ， 即 高 字 市 数据 存储 在 遍地 
址 ， 低 字 节 数据 存储 在 低地 址 。 因 此 偏 移 “0x12345678” 存 储 形式 
为 “78563412”， 而 非 “12345678”。 








我 们 发 现 ， 以 上 讨论 的 mod 字 段 对 wm 字段 定义 的 通用 寻 址 模式 中 ， 
仅 包含 三 种 寻 址 模式 : 寄存 器 寻 址 《寄存器 操作 数 ) 、 寄 存 器 间 址 和 寄 
存 器 基 址 + 侦 移 的 寻 址 方式 。 除 此 之 外 ， 在 指令 系统 中 还 存在 立即 寻 址 
(立即 数 操作 数 ) 、 直 接 寻 址 《直接 使 用 内 存 地 址 寻 址 ) 和 寄存 器 基 址 
+ 寄存 器 变 址 + 侦 移 的 寻 址 方式 。 








对 于 立即 寻 址 ，Intel x86 指 令 集 的 立即 数 一 般 都 是 硬 编码 在 指令 入 


部 ， 而 不 需要 ModR/M 字 段 指定 。 例 如 表 5-5 中 的 的 指令 “mov r32， 
imm32”， 其 操作 码 为 0xb8+reg， 因 此 对 于 指令 “mov ecx， 
0x12345678”， 其 中 reg 保 存 ecx 的 寄存 器 编号 0b001， 其 指令 编码 为 : 





b9 78 56 34 12 





对 于 直接 寻 址 ，Intel x86 指 令 集 规定 ， 当 mod=0b00，r/m=0b101 
时 ， 表 示 32 位 直接 寻 址 模式 。 例 如 指令 “mov ecx，[0x12345678]”， 其 指 
令 编 码 为 : 





8b 0d 78 56 34 12 








在 表 5-6 中 ，0b101 是 寄存 器 ebp 的 编号 ， 由 于 该 编号 被 直接 寻 址 模 
式 占 用 ， 因 此 形 如 “mov r32，[ebp]” 的 指令 ， 必 须 转 化 为 “mov r32， 
[ebp+0]” 进 行 处 理 。 例 如 指令 “mov ecx，[ebp]” 的 指令 编码 为 : 





8b 4d 00 





这 样 使 用 [ebp] 寻 址 的 指令 需要 额外 使 用 1 字 市 的 存储 。 





对 于 寄存 器 基 址 + 寄存 器 变 址 + 偏 移 的 寻 址 方式 ， 仅 使 用 ModR/M 字 
段 无 法 表示 。Intel 指 令 集 规定 ， 当 mod! =0b11，rm=0b100 时 ， 表 示 引 
导 SIB 字 段 。 由 SIB 字 段 表 示 ModR/M 字 上 段 无 法 表示 的 寻 址 模式 ， 而 mod 
定义 的 偏 移 信 息 仍然 有 效 。 


类 似 地 ， 由 于 引导 SIB 字 段 占 用 了 寄存 器 编号 0b100， 对 应 寄存 圳 
esp。 因 此 形 如 “mov r32，[esp]”“mov r32，[esp+disp8]”“mov r32， 
[esp+disp32]” 的 指令 也 无 法 仅 使 用 ModR/M 字 段 表 示 。 


特殊 ModR/M 字 段 如 表 5-8 所 示 。 


表 5-8 特殊 ModR/M 字 段 











= 网 
[0x12345] 
[?] 
[?+4] 
[?+0x12345] 





rm 寻 址 模式 
32 位 直接 寻 址 
引导 SIB 
引导 SIB+8 位 偏 移 


| 100 | 引导 srB+32 位 偏 移 


























5.1.4 SIB 字 段 


SIB 字 段 为 ModR/M 字 段 补 充 寻 址 模式 ， 如 图 5-3 所 示 ， 通 用 寻 址 模 
式 为 寄存 器 基 址 + 寄存 器 变 址 + 俩 移 的 寻 址 ， 当 然 也 解决 了 上 述 由 于 寄存 
需 纺 号 冲突 导致 的 部 分 指令 无 法 由 ModR/M 字 段 表 示 的 问题 。 








ra 和 至 3 2 0 


soe] maex | bose | 


图 5-3 ”SIB 字 上 段 


SIB 字 上 段 长 度 为 1 字 节 ， 其 中 0~2 位 为 base 字 段 、3~5 位 为 index 字 上 段 、 
6~7 位 为 scale 字 段 。base 字 段 保 存 基 址 寄存 器 的 编写 ，index 字 段 保 存 变 
址 寄存 器 的 编号 ，scale 字 段 保 存 以 2 为 底 的 指数 ， 表 示 变 址 寄存 器 的 因 
子 。 因 此 ，SIB 字 段 定义 的 寻 址 模式 格式 为 : 


[base+index*2scale 


] 


例如 指令 “mov ecx，[eaxtebx]” 中 ， 内 存 操作 数 使 用 了 变 址 寄存 器 
ebx〈 当 然 ， 也 可 以 将 eax 看 作 变 址 寄存 器 ) ， 因 此 必须 使 用 SIB 字 段 辅 
助 寻 址 。 指 令 编码 为 : 





8b Oc 18 


其 中 0x0c 为 ModR/M 字 7 段 ， 二 进 制 编码 为 00001100。mod=0b00 表 示 
指令 不 存在 偏 移 ，reg=0b001 表 示 操 作 数 ecx，r/m=0b100 表 示 引 导 SIB 字 
段 。 


0x18 为 SIB 字 段 ， 二 进 制 编码 为 00011000。scale=0b00 表 示 变 址 寄存 
器 因子 为 20=1，index=0b011 表 示 变 址 寄存 器 ebx，scale=0b000 表 示 基 址 
寄存 器 eax。 因 此 ， 使 用 ModR/M 和 SIB 字 段 完 整 表 达 了 指令 的 功能 。 





类 似 地 ， 对 于 指令 “mov ecx，[eax+ebx*8+0x12345678]”， 指 令 编 码 
为 : 





8b 8c d8 78 56 34 12 





其 中 ModR/M 的 字段 mod=0b10 表 示 指 令 中 存在 32 位 偏 移 ， 而 SIB 的 
字段 scale=0b11， 表 示 变 址 寄存 器 因子 为 23=8，32 位 偏 移 仍 按照 小 端 字 
节 顺 序 的 方式 存储 。 








SIB 寻 址 模式 见 表 5-9。 


表 5-9 SIB 寻 址 模式 


寻 址 模式 举 例 


[base+index] [eaxt+ebx] 








[base+index*2] [eaxt+ebx*2] 


[base+index*4] [eaxt+ebx*4] 





[base+index*8] [eaxt+ebx*8] 





前 面 讨论 了 SIB 字 上 段 的 通用 寻 址 模式 ,但 是 当 “ 大 址 + 变 址 + 偏 移 ”的 








寻 址 方式 中 不 存在 基 址 寄存 器 或 变 址 寄存 器 时 ，SIB 需 要 进行 特殊 处 
i 





Intel 指 令 集 规定 ， 当 SIB 的 字段 index=0b100 时 ， 不 存在 变 址 寄存 
如 。 这 样 SIB 的 寻 址 模式 被 简化 为 “[base]”* 形 式 ， 而 使 用 ModR/M 字 上 段 则 
可 以 完全 表达 该 种 的 寻 址 模式 。 因 此 ， 不 存在 变 址 寄存 器 的 寻 址 模式 可 
以 有 两 种 不 同 的 表达 形式 ， 例 如 指令 “mov ecx，[eax]” 的 指令 编码 有 数 
种 : 





8b Qc 20 
3) 


8b Oc 60 


8b 0c e0 


第 一 种 编码 方式 是 仅 使 用 ModR/M 字 段 的 情况 ， 后 四 种 编码 方式 是 
使 用 ModR/M 和 SIB 字 段 的 情况 。 使 用 SB 编码 的 情况 中 ， 必 须 设 定 





index=0b100 表 示 不 存在 变 址 寄存 器 ， 而 scale 字 段 可 以 取 任 意 值 0b00、 
0b01、0b10、0b11，base 字 段 必 须 设 置 为 0b000， 表 示 基 址 寄存 器 eax。 








之 所 以 定义 不 存在 变 址 寄存 器 的 寻 址 模式 ， 是 为 了 表达 在 ModR/M 
字段 的 讨论 中 ， 由 于 寄存 器 编号 冲突 而 无 法 表示 的 部 分 指令 。 例 如 指 
令 “mov ecx，[esp]” 的 二 进 制 编码 为 : 








8b Oc 24 








其 中 SIB 字 上 段 的 base=0b100 表 示 基 址 寄存 器 esp，index=0b100 表 示 不 
存在 变 址 寄存 器 ，scale 可 以 取 任意 值 ， 这 里 取 值 为 0b00。 








使 用 index=0b100 表 示 不 存在 变 址 寄存 器 ， 导 致 一 个 很 明显 的 结果 

esp 寄 存 器 不 能 作为 变 址 寄存 器 。 事 实 确 是 如 此 ，Intel 汇 编 语法 中 不 
允许 esp 寄 存 器 作为 变 址 寄存 右 。 例 如 指令 “mov ecx，[eax+esp*8]” 不 是 
合法 的 指令 。 








接 下 来 讨论 不 存在 基 址 寄存 器 的 情况 ，Intel 指 令 集 规定 ， 当 
ModR/M 的 字段 mod=0b00，SIB 的 字段 base=0b101 时 ， 不 存在 基 址 寄存 
器 ， 且 寻 址 格式 为 : 








[index*2scale 


+disp32] 








这 里 需要 注意 的 是 ， 不 存在 基 址 寄存 器 时 ， 寻 址 模式 中 “强制 ”包含 
了 32 位 的 偏 移 。 这 是 因为 该 寻 址 模式 下 ，ModR/M 的 字段 mod=0b00 并 未 
指定 指令 包含 偏 移 ， 因 此 这 里 将 偏 移 字 段 补充 进来 。 例 如 指令 “mov 
ecx，[eax*8+0x12345678]” 的 编码 为 : 








8b Oc c5 78 56 34 12 








其 中 ，SIB 字 段 为 0xc5，base=0b101 表 示 无 基 址 寄存 器 ， 但 是 必须 
有 32 位 俩 移 ，index=0b000 表 示 变 址 寄存 器 为 eax，scale=0b11 表 示 变 址 
寄存 器 因子 为 23 =8。 





无 基 址 寄存 器 的 寻 址 模式 也 有 一 定 的 问题 ， 例 如 当 指 令 中 不 存在 偏 
移 时 ， 指 令 “mov ecX，[eax*8]”， 必 须 按照 形式 “mov ecx， 


[eax*8+0x00000000]” 进 行 处 理 ， 指 令 编 码 为 : 





8b Oc c5 00 00 00 00 








这 样 仅 有 变 址 寄存 器 的 寻 址 模式 的 指令 编码 必须 额外 使 用 4 字 市 的 
存储 。 


无 基 址 寄存 器 寻 址 模式 要 求 SIB 的 字段 base=0b101， 这 和 ebp 的 寄存 
器 编号 冲突 。 这 样 在 mod=0b00 时 ，ebp 是 无 法 作为 基 址 寄存 器 的 。 但 
是 ， 当 mod=0b01 或 Ob10 时 ，ebp 仍 可 以 作为 正常 的 基 址 寄存 器 使 用 。 例 
如 指令 “mov ecx，[ebp+eax*8+4 了 ”的 指令 编码 为 : 





8b 4c c5 04 





其 中 ModR/M 的 字段 mod=0b01 表 示 指 令 保存 8 位 偏 移 ，SIB 的 字段 
base=0b101 表 示 基 址 寄存 器 ebp，index=0b000 表 示 变 址 寄存 器 eax， 
scale=0b11 表 示 变 址 寄存 器 因子 23 =8。 











而 对 于 指令 “mov ecx，[ebp+eax*8]”， 虽 然 不 存在 侦 移 ， 但 是 需要 
按照 “mov ecx，[ebp+eax*8+0]” 的 形式 进行 处 理 ， 指 令 编 码 为 : 





8b 4c c5 00 





这 样 使 用 [ebp+index*2scae ] 寻 址 的 指令 需要 额外 使 用 1 字 节 的 存储 。 


5.1.5 “” 偏 移 


32 位 Intel 指 令 中 的 偏 移 分 为 两 类 : 8 位 偏 移 和 32 位 偏 移 。 偏 移 配 合 
ModR/M 和 SIB 字 段 进 行内 存 寻 址 ， 而 不 作为 单独 的 字段 出 现在 指令 
中 。 使 用 偏 移 进行 寻 址 的 方式 包括 : 32 位 直接 寻 址 、 基 址 +8 位 偏 移 寻 
址 、 基 址 +32 位 偏 移 寻 址 、 基 址 + 变 址 +8 位 偏 移 寻 址 、 基 址 + 变 址 +32 位 
偏 移 寻 址 和 变 址 +32 位 偏 移 寻 址 ， 见 表 5-10。 


表 5-10 ”使 用 偏 移 的 寻 址 模式 























偏 移 寻 址 模式 举 例 
yf 基 址 + 偏 移 [eax+4] 
8 位 
位 偏 移 基 址 + 变 址 + 偏 移 [eaxt+ebx*8+4] 
立即 寻 址 [0x12345] 
i 基 址 + 偏 移 [eax+0x12345] 
32 位 偏 移 一 一 一 一 一 一 一 一 让 一 一 一 一 一 一 一 一 一 一 一 一 
a 基 址 + 变 址 + 偏 移 [eax+ebx*8+0x12345] 
变 址 + 偏 移 [ebx*8+0x12345] 


对 于 8 位 偏 移 ， 一 般 由 ModR/M 的 mod 字 段 指定 ，mod=0b01 时 ， 表 
示 指 令 使 用 8 位 偏 移 。 对 于 32 位 偏 移 ， 也 是 由 ModR/M 的 mod 字 上 段 指 定 ， 
mod=0b10 时 ， 表 示 指 令 使 用 32 位 偏 移 。 男 外 需要 注意 的 是 ， 当 ModR/M 
的 mod=0b00 且 rt/m=0b101 时 ， 表 示 指 令 使 用 32 位 偏 移 进 行 直 接 寻 址 。 而 
当 ModR/M 的 mod=0b00 且 SIB 的 base=0b101 时 ， 表 示 指 令 使 用 变 址 +32 位 
偏 移 的 寻 址 方式 。 





偏 移 在 指令 中 如 果 存 在 ， 则 紧 跟 ModR/M、SIB 字 上 段 之 后 ， 且 按照 


小 端 字 市 序 的 方式 进行 存储 。 


5.1.6 ”立即 数 


32 位 Intel 指 令 中 的 立即 数 分 为 三 类 : 8 位 立即 数 、16 位 立即 数 和 32 
位 立即 数 。 不 同 长 度 的 立即 数 操作 数 ， 操 作 码 也 不 相同 。 例 如 指 


今 “movr8/16/32，imm8/16/32” 的 操作 码 见 表 5-11。 


表 5-11 不 同 长 度 立 即 数 的 mov 指 令 操作 码 











立即 数 指令 前 组 操作 码 (0x) 举 例 
8 位 | 无 | b0O+reg mov ©l,0x12 
16 位 0x66 b8+reg mov cx,0xl1234 
mov ecx, 0xX12345678 





32 位 


对 于 指令 “movr8，imm8”， 指 令 的 操作 码 为 0xb0 加 上 ModR/M 的 reg 


字段 。 例 如 指令 “mov cl，0x12”， 指 令 编码 为 中 112>”。 


对 于 指令 “mov r32，imm32”， 指 令 的 操作 码 为 0xb8 加 上 ModR/M 的 


reg 字 段 。 例 如 指令 “mov ecx，0x12345678”， 指 令 编 码 


为 “<b978563412”。 


对 于 指令 “mov r16，imm16”， 指 令 的 操作 码 和 32 位 立即 数 指令 相 


同 ， 但 是 在 32 位 汇编 语言 环境 下 ， 需 要 添加 操作 数 大 小 重 写 前 级 0x66 


例如 指令 “mov ax，0x1234”， 指 令 编 码 为 “66 b93412”。 


立即 数 在 指令 中 如 果 存 在 ， 则 紧 跟 ModR/M、SIB、 偏 移 字 段 之 


后 ， 且 按照 小 问 字 贡 序 的 方式 进行 存储 。 


5.1.7_ AT&T 汇编 格式 


x86 汇 编 语法 有 两 种 常见 的 格式 ;Intel 汇 编 语法 和 AT&T 汇 编 语法 。 
Intel 汇 编 语法 常见 于 Intel 官 方 文档 和 Windows 平 台 ， 而 AT&T 汇 编 语法 
在 Unix 平 台 更 为 常见 。 一 般 使 用 NASM 汇 编 Intel 格 式 的 汇编 程序 ， 而 使 
用 as 汇编 AT&T 格 式 的 汇编 程序 。 








一 般 的 汇编 教材 中 ， 大 多 数 使 用 Intel 汇 编 语 法 ， 因 此 我 们 对 Intel 汇 
编 语 法 更 为 熟悉 ， 包 括 本 书 描述 的 汇编 大 都 是 该 格式 。 但 是 在 Linux 环 
境 中 ， 无 论 是 反 汇编 工具 objdump， 还 是 GNU C 语 言 的 杠 入 式 汇编 ， 经 
第 使 用 AT&T 汇 编 格 式 。 因 此 ， 我 们 有 必要 次 明 AT&T 汇 编 语 法 的 格 
式 。 通 过 对 Intel 汇 编 语 法 与 AT&T 汇 编 语法 的 比较 ， 见 表 5-12， 可 以 很 
容易 理解 它们 的 区 别 。 











表 5-12 ”操作 数 基 本 形式 














Intel 汇编 语法 AT&T 汇编 语法 
寄存 带 | eax | %eax 
立即 数 | 0x1234 | $0x1234 

操作 数 方向 mov eax,l mov $1,%eax 





我 们 首先 从 汇编 指令 格式 说 明 两 种 汇编 语法 的 区 别 。 


AT&T 汇 编 的 寄存 器 操作 数 前 需要 添加 前 级“%”， 立 即 数 操作 数 需 
要 添加 前 级 “$”。 两 种 汇编 最 大 的 不 同 是 操作 数位 置 相 反 ，Intel 汇 编 指 


令 形式 为 " 助 记 符 目 的 操作 数 ， 源 操作 数 ”， 而 AT&T 谍 编 指令 形式 为 " 助 
记 符 源 操作 数 ， 目 的 操作 数 ”。 


对 于 内 存 操 作 数 ， 其 一 般 的 Intel 汇 编 形 式 为 “section: 
[base+index*scale+disp]”， 和 而 AT&T 沪 编 形式 为 “%section: 


disp (%base, %index, scale) ”。 


AT&T 汇 编 经 名 涉及 的 内 存 操作 数 形式 如 表 5-13 所 示 。 对 于 内 存 操 
作 数 ， 段 寄存 器 section、 基 址 寄存 器 base、 变 址 寄存 器 index、 变 址 寄存 
器 因子 scale、 偏 移 disp 都 是 可 选 的 。 当 不 存在 基 址 寄存 器 base 时 ， 仍 需 
要 保留 逗号 分 隔 符 。 当 不 存在 人 往 移 qisp 时 ， 默 认为 1。 当 仅 有 偏 移 disp 
时 ， 表 示 直 接 寻 址 操作 数 ，Intel 汇 编 使 用 “[]”* 将 内 存 地 址 包含 起 来 ， 而 
AT&T 直 接 使 用 内 存 地 址 进行 访问 。 








表 5-13 内存 操作 数 


Intel 汇编 语法 AT&T 汇编 语法 














[0x1234] 0x1234 
[eax] (%eax) 
[eax*8] (, %eax, 8) 





Intel 汇编 语法 


AT&T 汇编 语法 





[eax+0x1234] 


0x1234 (%eax) 





[eaxtecx] 


(Weax, Wecx) 





[eaxt+ecx*8] 


[ecx*8+0xl1234] 


(Weax, Wecx, 8) 


0x1234(,%ecx, 8) 





[eax+ecx*8+0xl1234] 


0x1234 (Weax, %ecx, 8) 





ds: [eax+ecx*8+0xl1234] 





%ds:0x1234 (W%eax, %ecx, 8) 


由 于 内 存 操作 数 都 是 通过 寻 址 的 方式 进行 访问 的 ， 操 作 数 的 大 小 一 
般 可 以 通过 源 寄 存 器 或 目的 寄存 占 的 大 小 自动 推 师 。 当 内 存 操 作 数 大 小 
无 法 目 动 推断 时 比如 操作 数 中 不 存在 寄存 此 时 ) ， 必 须 显 示 指 定 操作 
数 的 大 小 ， 见 表 5-14。 


表 5-14 ”内 存 操 作 数 大 小 





Intel 汇编 语法 AT&T 汇编 语法 


mov byte ptr [eax],1 | movb $1, (%eax) 








mov word ptr [eax], movw $1, (%eax) 





mo dword ptr [eax], 


ER ptr" 前 绥 修 饰 内 存 操作 数 ， 表 示 操 作 
数 的 大 小 是 1、2、4 字 节 。 而 AT&T 则 是 通过 在 操作 码 后 添加 后 
级 “b/w/]*? 进 行 表 示 ， 分 别 对 应 单词 “byte/word/long”。 


一 般 情况 下 ， 内 存 操作 数 被 作为 数据 对 待 ， 但 是 内 存 操作 数 被 作为 
地 址 对 等 时 ， 情 况 比 较 特 殊 ， 特 殊 内 存 操作 数 见 表 5-15。 


表 5-15 ”特殊 内 存 操作 数 











Intel 汇编 语法 AT&T 汇编 语法 
jmp dword ptr [0x1234] | jmp *0x1234 
call dword ptr [eax] | call *(%Seax) 
jne dword ptr [eax+4] jne *4($%Seax) 








当 内 存 操 作 数 作为 跳 转 类 指令 (call、jmp、Jcc 等 ) 的 目标 地 址 
时 ， 需 要 使 用 前 级 “*” 修 饰 内 存 操 作 数 。 例 如 指令 “jmp 0x1234” 表 示 跳 转 
到 地 址 0x1234 处 执行 ， 而 指令 “jmp*0x1234” 表 示 将 地 址 0x1234 处 的 内 存 


数据 取出 ， 作 为 跳 转 地 址 。 


接 下 来 讨论 两 种 汇编 数据 定义 格式 的 区 别 ， 见 表 5-16。 


表 5-16 数据 定义 

















Intel 汇编 语法 AT&T 汇编 语法 
sh db “a” | ch: .byte "a" 
x dw 0x1234 | x: swWord 0x1234 
Var dd 0x12345678 | var: .long 0x12345678 
( 续 ) 
Intel 汇编 语法 AT&T 汇编 语法 





ria oil 2554.0 
str: .ascii "hello\000" 


array times 255 dd 0 
Str db "hello",.0 
BtE dd BE 











EEE .Lang SEE 


Intel 汇 编 使 用 “db/dw/dd” 定 义 数 据 的 长 度 ， 而 AT&T 使 
| Intel 汇 编 使 用 “times” 定 义 一 块 连续 
内 存 ， 而 AT&T 使 用 “.fill”* 定 义 连续 内 存 。Intel 汇 编 使 用 db 后 紧 跟 如 写 分 
隔 的 常量 列表 定义 字符 串 ， 而 AT&T 使 用 .ascii 定 义 字符 串 。 





除了 以 上 所 介绍 的 ， 两 种 汇编 格式 对 应 的 汇编 右 执 行 指令 也 不 同 。 
Intel 汇编 程序 使 用 nasm 命 令 将 汇编 代码 汇编 为 目标 文件 ， 命 令 格 式 为 
Cfilename.s 为 文件 名 ) : 








nasm -f elf filename.s 








而 AT&T 汇 编程 序 使 用 as 将 汇编 代码 汇编 为 目标 文件 。 





as filename.s - 


0 filename .0 


me 


5.2 ELF 文件 


目前 主流 的 可 执行 文件 格式 有 两 种 ，Windows 平 台 下 的 PE 文件 格式 
和 Linux 平 台 下 的 ELF 文 件 格式 。 在 Linux 平 台 下 ， 除 了 可 执行 文件 
(Executable File) ， 可 重 定位 目标 文件 〈Relocatable Object File) 、 共 
享 目标 文件 《Shared Object File) 、 核 心 转 储 文件 〈Core Dump File) 也 
都 是 ELF 格 式 的 文件 。 


在 我 们 设计 的 编译 系统 中 ， 汇 编 堪 生成 的 目标 文件 是 ELF 格 式 的 可 
重 定位 目标 文件 ， 链 接 器 生成 的 是 ELF 格 式 的 可 执行 文件 。 因 此 ， 详 细 
了 解 ELF 文 件 格式 的 细节 ， 对 构造 汇编 器 和 链接 器 全 天 重 要 。 


程序 头 表 ( Proeram Header Table) | (32* 程 序 头 表 项 个 数 ) 


段 表 字 符 串 表 (. shstrtab ) 


段 表 ( Section Header Table ) (40* 段 表 项 个 数 ) 
符号 表 (. symtab ) (16* 符 号 表 项 个 数 ) 
重 定位 表 (. rel .texf) (8* 重 定位 表 项 个 数 ) 
重 定位 表 (. rel . data) (8* 重 定位 表 项 个 数 ) 





图 5-4 ”ELF 文件 结构 


图 5-4 描 述 了 ELF 文 件 常 见 的 结构 (图 中 NN 表示 表 项 的 个 数 ) 。 在 
ELF 文 件 中 ， 保 存 的 最 关键 的 信息 是 程序 中 的 代码 和 数据 。 一 般 的 ， 程 
序 的 代码 以 二 进 制 指令 的 形式 保存 在 代码 段 (.text〉 中 ， 程 序 的 数据 以 
二 进 制 的 形式 保存 在 数据 段 (.data) 或 “.bss” 段 中 。ELF 文 件 的 其 他 结 
构 ， 一 般 用 于 对 ELF 文 件 内 容 进 行 管理 ， 为 链接 器 、 加 载 器 、 调 试 右 、 
操作 系统 等 提供 必要 的 信息 。 


在 Linux 系 统 的 “/usr/include/elf.h” 尖 文件 中 ， 定 义 了 了 ELF 文件 涉及 的 





所 有 数据 结构 。 根 据 ELF 文 件数 据 结构 展开 讨论 ELF 文 件 格式 ， 更 容易 
帮助 我 们 把 握 ELF 文 件 结构 的 细节 。 





后 续 对 ELF 文 件 结构 补充 说 明 的 实例 中 ， 使 用 的 可 重 定 位 目标 文件 
file.o 和 可 执行 文件 fle 由 第 1 章 示 例 中 helloworld 程 序 的 源 代码 编译 生 
成 。 


5.2.1 文件 头 


ELF 文 件 头 描述 了 文件 格式 、 平 台 环 境 以 及 文件 结构 等 信息 ， 其 数 
所 结构 定义 为 : 








1 typedef uint16_t Elf32_Half; // 半 字 ， 

2 typedef uint32_t Elf32 Word; // 字 ， 

3 typedef uint32 t Elf32 Addr; / /地 址 ， 

4 typedef uint32 t Elf32 Off; // 偏 移 ， 

5 #define EI_NIDENT (16) // 魔 数 长 度 


6 typedef struct{ 
7 unsigned char e_ident[EI_NIDENT]; // 魔 数 


8 Elf32_Half e_type; / /文件 类 型 
9 Elf32_Half e_machine; // 机 器 类 型 


10 Elf32_Word e_version; // 版 本 号 


11 


12 


13 


14 


15 


16 


17 


18 


19 


20 


Elf32_Addr 


Elf32_Off 


Elf32_Off 


Elf32 word 


Elf32_Half 


Elf32_Half 


Elf32_Half 


Elf32_Half 


Elf32_Half 


Elf32_Half 


21 } Elf32_Ehdr; 


/ /文件 头 


e_entry; 


e_phoff; 


e_shoff; 


e_flags,; 


e_ehsize,; 


e_phentsize; 


e_phnum; 


e_shentsize; 


e_shnum; 


e_shstrndx; 





/ /程序 入 口 点 








DH 





/ /程序 头 表 文件 偏 移 


/ / 段 表 文 件 偏 移 


/ /平台 相关 标记 





/ /文件 头 大 小 


/ /程序 头 表 项 大 


/ /程序 头 表 项 个 数 


// 段 表 项 大 小 


// 段 表 项 个 数 


// 段 表 字 符 串 表 能 








第 1~4 行 描述 了 ELF 文 件数 据 结构 常用 的 数据 


类 型 ， 第 5 行 定 义 了 


ELF 文 件 头 魔 数 字段 的 长 度 ， 结 构 体 Elf32_Ehdr 描 述 了 ELF 文 件 头 数据 


结构 。ELF 文 件 头 的 每 个 字段 的 含义 如 下 。 


1) e_ident 称 为 ELF 文 件 的 魔 数 ， 是 16 字 节 长 的 数组 ， 用 于 标识 ELF 





文件 格式 、 数 据 存储 的 字 节 序 、ELF 版 本 等 信息 。 常 见 的 初始 值 为 : 





71 45 4c 46 


01 01 01 00 00 00 00 00 00 00 00 00 





其 中 前 4 字 节 为 DEL 控制 字符 和 字符 “下 ” “” “FE 对 应 的 ASCLL 
码 ， 对 于 任意 ELE 文 件 ， 这 4 字 贡 的 值 是 固定 的 。 第 5 字 节 表示 文件 类 
别 ，0 表 示 无 效 文件 、1 表 示 32 位 ELF 文 件 、2 表 示 64 位 ELF 文 件 ， 我 们 只 
使 用 32 位 ELF 文 件 ， 取 值 ELFCLASS32。 第 6 字 节 表示 字 节 序 ，0 表 示 无 
效 格式 、1 表 示 小 端 字 节 序 、2 表 示 大 端 字 节 序 ， 我 们 使 用 小 端 字 节 序 ， 
取 值 ELFDATA2LSB。 第 7 字 节 表示 ELF 版 本 ， 默 认为 1， 取 值 
EV_CURRENT， 表 示 当 前 版 本 号 。 后 面 的 9 字 节 在 ELF 标 准 中 未 定义 ， 
一 般 用 于 平台 相关 的 扩展 标志 。 在 Linux 系 统 中 ， 第 8 字 节 取 值 
ELFOSABI_NONE=0， 表 示 UNIX 系 统 ， 第 9 字 节 取 值 0， 表 示 系 统 



































ABI (Application Binary Interface) 版 本 为 0。 其 他 字 节 默认 为 0。 


2) e type 表示 ELE 文 件 类 型 ，0 表 示 无 效 文件 类 型 、1 表 示 可 重 定位 
目标 文件 、2 表 示 可 执行 文件 、3 表 示 共 享 目标 文件 、4 表 示 核 心 转 储 文 
件 。 我 们 设计 的 汇编 器 输出 可 重 定位 目标 文件 ， 该 字段 取 值 为 
ET_REL。 关 态 链接 器 输出 可 执行 文件 ， 该 字段 取 值 为 ET_EXEC。 





3) e_machine 表 示 ELE 所 在 的 机 器 类 型 ， 例 如 3 表示 Intel 80386 体 系 
结构 、40 表 示 Arm 体 系 结构 。 我 们 生成 x86 平 台 的 ELF 文 件 ， 该 字段 取 值 


为 EM_386。 
4) e_version 表 示 ELF 文 件 的 版 本 ， 一 般 取 值 ]， 好 EV_CURRENT。 


5) e_entry 表 示 ELF 文 件 程序 的 入 口 线性 地 址 ， 一 般 用 于 ELF 可 执行 
文件 。 对 于 可 重 定位 目标 文件 ， 该 字段 设置 为 0。 








6) e_phoff 表 示 程 序 头 表 在 ELF 文 件 内 的 偶 移 地 址 ， 标 识 了 程序 头 
表 在 文件 内 的 位 置 。 





7) e_shoff 表 示 段 表 在 ELF 文 件 内 的 侦 移 地 址 ， 标 识 了 段 表 在 文件 
内 的 位 置 。 


8) e_flags 表 示 ELF 文 件 平台 相关 的 属性 ， 一 般 默 认为 0。 


9) e_ehsize 表 示 ELE 文 件 头 的 大 小 ， 即 sizeof (Elf32_Ehdr)〉 =52 字 


I 





10) e_phentsize 表 示 程 序 头 表 项 的 大 小 ， 即 sizeof (Elf32_Phdr) 


=32 字 节 。 





11) e_phnum 表 示 程 序 头 表 项 的 个 数 ， 因 此 可 以 确定 程序 头 表 在 
ELF 文 件 偏 移 e_phoff 到 Je_phoff+e_phentsize*e_phnum 的 数据 块 中 。 


12) e_shentsize 表 示 段 表 项 的 大 小 ， 即 sizeof (Elf32_Shdr) =40 字 


人 





13) e_shnum 表 示 上 段 表 项 的 个 数 ， 因 此 可 以 确定 段 表 在 ELF 文 件 偏 
移 e_shoff 到 e_ shoff+e_shentsizexe_shnum 的 数据 块 中 。 








14) e_shstrmdx 表 示 段 表 字 符 串 表 所 在 段 在 段 表 中 的 索引 
段 的 含义 比较 复杂 ， 稍 后 会 作 详 细 解 释 。 





人 


使 用 命令 “readelf-h file.o" 可 以 得 看 ELF 文 件 头 的 完整 信息 。 





ELF Header : 


Magic: 7f 45 4c 46 01 01 01 00 00 00 00 00 00 00 00 00 


Class: 

Data: 

Version: 

OS/ABI: 

ABI Version: 

Type: 

Machine: 

Version: 

Entry point address: 

Start of program headers: 
Start of section headers: 
Flags: 

Size of this header: 

Size of program headers: 
Number of program headers: 
Size of section headers: 
Number of section headers: 
Section header string table index: 


ELF32 

2's complement, little endian 
1 (current) 

UNIX - System V 

0 

REL (Relocatable file) 
Intel 80386 

Ox1 

Ox0O 

© (bytes into file) 
224 (bytes into file) 
Ox0O 

52 (bytes) 

9 (bytes) 


0 
40 (bytes ) 
11 


8 





从 输出 信息 中 可 以 看 出 ， 该 文件 为 可 重 定位 目标 文件 ， 程 序 入 口 点 
为 0。 程 序 头 表 文件 偶 移 为 0， 程 序 头 表 项 大 小 为 0， 程 序 头 表 项 的 个 数 














为 0， 因 此 不 存在 程序 头 表 。 段 表 文 件 偏 移 为 224 字 节 ， 段 表 项 大 小 为 40 
字 节 ， 段 表 项 个 数 为 11 个 ， 因 此 文件 224 字 节 到 224+11*40=664 处 保存 了 


段 表 的 内 容 。 


通过 ELEF 文 件 头 ， 可 以 访问 到 ELE 内 两 个 最 关键 的 数据 结构 : 段 表 


(Section Header Table) 和 程序 头 表 〈Program Header Table) 。 


5.2.2 ” 段 表 


ELF 文 件 内 的 数据 结构 ， 除 了 段 表 和 程序 头 表 之 外 ， 其 他 都 是 以 段 
《Section ) 的 方式 进行 组 织 的 。 段 表 包 含 了 多 个 段 表 项 ， 段 表 项 记录 了 
每 个 段 的 相关 信息 ， 比 如 段 的 名 称 、 位 置 、 大 小 、 属 性 等 信息 。 段 表 项 
的 数据 结构 定义 为 : 





typedef struct{ 





Elf32_Word sh_name; // 段 名 
Elf32_Word sh_type; // 段 类 型 
Elf32_Word sh_flags,; // 段 标志 
Elf32_Addr sh_addr; // 段 虚拟 基 址 
Elf32_Off sh_offset / / 段 文件 偏 移 
Elf32_Word sh_size; // 段 大 小 
Elf32_Word sh_link; // 段 链接 信息 
1 
Elf32_Word sh_info; // 段 链接 信息 
2 
Elf32_Word sh_addralign; // 段 对 齐 方式 
Elf32_Word sh_entsize,; / / 表 项 大 小 


} ELf32_Shdr 


// 段 表 项 





结构 体 Elf32_Shdr 摘 述 了 ELF 文 件 段 表 项 的 数据 结构 ， 其 每 个 字段 
的 含义 如 下 。 





1) sh_name 是 一 个 4 字 节 偏 移 量 ， 记 录 了 段 名 字符 串 在 段 表 字符 串 
表 内 的 偏 移 。 段 表 字 符 串 表 并 非 表 的 形式 ， 而 是 一 个 文件 块 ， 保 存 了 所 
有 的 段 表 字符 串 内 容 ， 存 储 在 名 为 “.shstrtab” 的 段 中 。 根 据 “.shstrtab” 段 
的 偏 移 ， 加 上 sh_name 便 可 以 访问 到 每 个 段 对 应 的 段 名 字符 串 ， 因 此 欲 
解析 段 名 必须 访问 “.shstrtab” 段 。 然 而 , “.shstrtab” 段 的 信息 也 是 以 段 表 
项 存储 在 段 表 内 的 ， 欲 访问 “.shstrtab” 段 必须 先 访问 段 表 。 这 样 ， 问 题 
好 像 陷入 了 一 个 段 表 、“.shstrtab” 段 、 段 表 的 “ 死 循环 ”中 ， 而 ELF 文 件 头 
的 e-shstrndx 字 段 的 意义 在 此 便 体 现 出 来 。e-shstrndx 字 段 记录 段 表 字符 
串 表 所 在 的 “.shstrtab” 段 对 应 的 段 表 项 在 段 表 内 的 索引 ， 根 据 该 索引 ， 
可 以 定位 到 “.shstrtab” 段 表 项 的 位 置 ， 计 算 公 式 为 e_shoff+sh_entsize*e- 
shstrmdx， 其 中 sh_entsize 为 段 表 项 的 大 小 。 然 后 根据 该 段 表 项 取 
出 “.shstrtab” 段 的 偏 移 量 sh-off set， 读 出 “.shstrtab” 段 的 内 容 ， 再 根据 每 
个 段 的 sh_name 访 问 段 名 字符 串 的 内 容 。 








2) sh_type 表 示 段 的 类 型 。 其 中 1 表示 程序 段 ， 取 值 
SHT_PROGBITS， 比 如 代码 段 “.text*、 数 据 段 “.data” 等 。2 表 示 符 号 表 


段 ， 取 值 SHT_SYMTAB， 如 符号 表 段 <.symtab”。3 表 示 串 表 段 ， 取 值 

SHT_STRTAB， 如 段 表 字 符 串 表 段 “.shstrtab” 和 串 表 段 “.strtab”。8 表 示 

无 内 容 段 ， 取 值 SHT_NOBITS， 比 如 “.bss” 段 。9 表 示 重 定位 表 段 ， 取 值 
SHT_REL， 比 如 重 定 位 表 段 “.rel.text” 和 “.rel.data” 等 。 


3) sh_flags 为 段 标志 ， 记 录 上 段 的 属性 。 其 中 0 表示 默认 属性 。1 表 示 
段 可 写 ， 取 值 SHF_WRITE。2 表 示 段 加 载 后 需要 为 之 分 配 内 存 空间 ， 取 
值 SHF_ALLOC。4 表 示 段 可 以 执行 ， 取 值 SHF_EXECINSTR。 段 标志 属 
性 可 以 进行 复合 ， 比 如 代码 段 “.text”* 属 性 为 可 分 配 、 可 执行 、 不 可 写 ， 
因此 其 段 属性 为 SHF_ALLOC|SHF_EXECINSTR。 而 数据 
段 “.data” 或 “.bss” 段 属性 为 可 分 配 、 可 写 、 不 可 执行 ， 因 此 其 段 属性 为 
SHEF_ALLOCISHF_WRITE。 对 于 一 般 的 段 ， 如 果 需 要 分 配 内 存 则 取 值 
SHF_ALLOC， 如 果 不 需要 分 配 内 存 则 取 默 认 值 0 即 可 。 














4) sh_addr 表 示 段 加 载 后 的 线性 地 址 。 在 可 重 定位 目标 文件 内 ， 无 
法 确定 段 的 虚拟 地 址 ， 故 设 为 默认 值 0。 在 可 执行 文件 内 ， 链 接 器 会 计 
算出 需要 加 载 的 段 的 线性 地 址 。 


5) sh_offset 表 示 段 在 文件 内 的 偏 移 ， 根 据 此 偏 移 可 以 确定 段 的 位 
置 ， 读 取 段 的 内 容 。 


6) sh_size 表 示 段 的 大 小 ， 单 位 为 字 节 。 需 要 注意 的 是 ， 如 果 段 类 
型 为 SHT_NOBITS， 段 内 是 没有 数据 的 ， 那 么 段 大 小 并 非 指 文件 块 的 大 


小 ， 而 是 指 段 加 载 后 占用 内 存 的 大 小 。 


7) sh_link 和 sh_info 表 示 段 的 链接 信息 ， 一 般 用 于 描述 符号 表 段 和 
重 定位 表 段 的 链接 信息 。 对 于 符号 表 段 〈 段 类 型 为 SHT_SYMTAB ) ， 
sh_jlink 记 录 符 号 表 使 用 的 串 表 所 在 段 〈 一 般 是 “.strtab”) 对 应 段 表 项 在 
段 表 内 的 索引 。 就 像 段 表 项 的 sh_name 记 录 段 名 字符 串 在 段 表 字符 串 表 
所 在 段 *.shstrtab” 的 侦 移 一 样 ， 符 号 表 项 的 st_name 记 录 符 号 名 字符 串 在 
字符 串 表 所 在 段 “.strtab” 的 偏 移 ， 而 sh_info 记 录 符 号 表 内 最 后 一 个 局 部 
符号 的 符号 表 项 在 符号 表 内 的 索引 +1， 一 般 恰好 是 第 一 个 全 局 符号 的 符 
号 表 项 的 索引 ， 这 可 以 帮助 链接 器 更 快 地 定位 到 第 一 个 全 局 符号 。 对 于 
重 定位 表 段 ( 段 类 型 为 SHT_REL) ，sh_link 记 录 重 定位 表 使 用 的 符号 
表 段 (一 般 是 “.symtab”) 对 应 段 表 项 在 段 表 内 的 索引 ， 而 sh_info 记 录 重 
定位 所 作用 的 段 对 应 的 段 表 项 在 段 表 内 的 索引 。 一 般 的 ， 重 定位 表 
段 “.rel.text”* 作 用 于 代码 段 “.text*”，“.rel.data” 作 用 于 数据 段 “.data”。 对 于 
其 他 类 型 的 段 ， 如 无 特殊 要 求 ，sh_link 和 sh_info 默 认为 0。 









































8) sh_addralign 表 示 段 的 对 齐 方式 ， 对 齐 规则 为 
sh_offset%sh_addralign=0， 即 段 的 文件 偏 移 必须 是 sh_addralign 的 整数 
倍 。sh_addralign 取 值 必须 是 2 的 整数 寅 ， 如 1、2、4、8 等 ， 特 别 地 ， 如 
果 sh_addralign 取 值 0 或 1 表示 无 对 齐 要 求 。 比 如 “.text” 段 的 文件 偏 移 为 
118 字 节 ， 对 齐 大 小 为 4 字 节 ， 那 么 对 齐 后 新 的 文件 偏 移 为 120 字 节 ， 第 
118~119 字 节 的 两 字 节 数据 被 * 空 出 *"， 需 要 使 用 数据 填充 。 数 据 填充 一 











般 使 用 Oox00， 但 是 对 于 代码 段 数 据 ， 使 用 字 节 0x90 填 充 会 更 好 ， 它 们 对 
应 汇编 指令 “nop”， 不 会 影响 代码 的 执行 。 使 用 如 下 公式 可 以 对 段 偏 移 
进行 对 齐 : 


offset+=(align-offset%align)%align 





offset=offset&align+(offset&(align-1))?align:0 





我 们 一 般 采 用 第 一 种 方式 。 在 可 重 定位 目标 文件 中 ， 代 码 段 和 数据 
段 的 sh_addralign 取 值 一 般 是 4， 即 按照 4 字 市 对 齐 ， 其 他 类 型 的 段 
sh_addralign 取 值 为 1， 无 对 齐 要 求 。 在 可 执行 文件 中 ， 代 码 段 的 
sh_addralign 取 值 一 般 是 16， 即 按照 16 字 节 对 齐 ， 数 据 段 的 sh_addralign 
取 值 一 般 是 4， 即 按照 4 字 节 对 齐 ， 其 他 类 型 的 段 sh_addralign 取 值 为 1， 
无 对 齐 要 求 。 








9) sh_entsize 一 般 用 于 保存 诸如 符号 表 段 、 重 定位 表 段 时 ， 表 示 段 
内 保存 表 的 表 项 大 小 。 例 如 符号 表 段 <.symtab” 内 保存 的 符号 表 的 表 项 大 
小 为 sizeof (Elf32_Sym) =32 字 节 ， 重 定位 段 *.reltext” 或 “rel.data" 内 保 
存 的 重 定位 表 的 表 项 大 小 为 sizeof (Elf32_Rel) =8 字 节 。 对 于 其 他 类 型 














的 段 ， 该 字段 默认 值 为 0， 表 示 段 内 保存 的 是 非 表 类 型 数据 。 


使 用 命令 “readelf-S file.o” 可 以 查看 ELF 文 件 段 表 的 完整 信息 。 





Section Headers : 


[Nr] Name Type Addr off Size ES Flg Lk Inf 
[0] NULL 00000000 000000 000000 00 0 0 
[1] .text PROGBITS ©00000000 000034 00001d 00 AX 0 0 
[2] .rel.text REL 00000000 000350 000010 08 9 工 
[3] ,data PROGBITS 00000000 000054 000000 00 WA 0 0 
[4] .bss NOBITS 00000000 000054 000000 00 WA 0 0 
[5] .rodata PROGBITS 00000000 000054 00000d 00 A 0 0 
[6] ,comment PROGBITS 00000000 000061 00002c 01 MS 0 0 
[7] .note.GNU-stack PROGBITS 00000000 00008d 06000000 00 0 0 
[8] .shstrtab STRTAB 00000000 00008d 06000051 00 0 0 
[9] .symtab SYMTAB 00000000 ©000298 0000a0 10 10 8 
[10] .strtab STRTAB 00000000 ©000338 000015 00 0 0 








其 中 列 名 Nr 表 示 段 表 项 索引 、Name 表 示 段 名 、Type 表 示 段 类 型 、 
Addr 表 示 段 线性 地 址 、Off 表 示 段 文件 偏 移 、Size 表 示 段 大 小 、ES 表 示 
段 内 保存 表 的 表 项 大 小 、Flg 表 示 段 标志 、Lk 和 Inf 表 示 段 链接 信息 、Al 
表示 段 对 齐 大 小 。 


从 输出 信息 中 可 以 看 出 ， 段 表 的 第 一 项 (索引 0) 保存 无 效 段 表 
项 ， 所 有 字段 初始 化 为 0。 代 码 段 “.text”* 的 索引 为 1， 类 型 为 
PROGBITS、 线 性 地 址 为 0、 文 件 偏 移 为 0x*34、 大 小 为 0x1d、 段 属性 为 
AX， 即 可 分 配 、 可 执行 (A-Alloc，X-Exec) 、 按 照 4 字 节 对 齐 。 数 据 
段 “.data” 的 段 属性 为 NA， 即 可 写 、 可 分 配 (W-Write，A-Alloc) 、 按 
照 4 字 节 对 齐 。“.bss” 段 类 型 为 NOBITS， 表 示 无 内 容 。 符 号 表 
段 “.symtab” 类 型 为 SYMTAB、 符 号 表 项 大 小 为 0x10、Lk 字 上 段 为 10， 对 
应 “.strtab” 的 段 表 项 ， 表 示 符 号 表 使 用 的 串 表 在 该 段 中 、Inf 字 段 为 8， 表 























示 符 写 表 内 第 一 个 全 局 符号 表 项 的 索引 参考 后 面 符 写 表 章 市 给 出 的 符 
号 表 信 息 ) 。 重 定位 表 段 “.rel.text” 的 类 型 为 REL、 重 定位 表 项 大 小 为 

0x8、Lk 字 段 为 9， 对 应 “.symtab” 的 段 表 项 ， 表 示 重 定位 表 使 用 的 符号 表 
在 该 段 中 、Inf 字 段 为 1， 对 应 “.text”* 的 段 表 项 ， 表 示 重 定位 表 作用 的 段 
为 代码 段 “.text”。 

















通过 ELF 文 件 的 段 表 ， 可 以 访问 到 ELF 所 有 段 的 内 容 和 信息 ， 继 而 
访问 具体 的 段 。 


5.2.3 ”程序 头 表 


ELF 文 件 的 程序 头 表 与 段 表 是 相互 独立 的 ， 它 们 由 ELF 文 件 头 统一 
管理 。 程 序 头 表 管 理 ELF 文 件 加 载 后 ，ELEF 文 件 内 可 加 载 段 到 内 存 镜 像 
的 映射 关系 ， 一 般 只 有 可 执行 文件 包含 程序 头 表 。 程 序 头 表 包 含 多 个 程 
序 头 表 项 ， 程 序 头 表 项 描述 的 对 象 称 为 “Segment”。 为 了 和 段 表 所 描述 
的 段 〈Section) 进行 区 分 ， 仅 在 本 节 我 们 约定 Segment 称 为 “ 段 >， 而 
Section 称 为 “T”。 段 描述 的 是 ELF 文 件 加 载 后 的 数据 块 ， 而 节 描 述 的 是 
ELF 文 件 加 载 前 的 数据 块 。 一 般 情 况 下 ， 段 与 市 之 间 没 有 必然 的 对 应 关 
系 ， 但 不 排除 一 一 对 应 关系 。 比 如 代码 节 “.text”* 的 加 载 信 息 保 存在 代码 
段 对 应 的 程序 头 表 项 中 ， 数 据 节 “.data” 的 加 载 信息 保存 在 数据 段 对 应 的 
程序 头 表 项 中 。 有 时 候 ， 为 了 简化 程序 头 表 项 的 个 数 ， 会 把 同类 型 的 多 
个 节 ， 甚 至 整个 ELF 文 件 作 为 一 个 段 加 载 ， 这 样 段 与 节 之 间 束 没有 对 应 
关系 了 。 











程序 头 表 描述 的 加 载 信息 之 所 以 可 以 如 此 有 灵活， 与 程序 头 表 项 的 信 
奶 是 分 不 开 的 。 程 序 头 表 项 记录 了 每 个 段 的 相关 信息 ， 比 如 段 的 类 型 、 
对 应 文件 的 位 置 、 大 小 、 属 性 等 信息 ， 这 些 信 息 与 段 表 描述 的 节 信 息 是 
相互 独立 的 。 程 序 头 表 项 的 数据 结构 定义 为 : 





1 typedef struct{ 
2 EJf32_Word p_type; // 段 类 型 


3 Elf32_Off p_offset; // 段 文件 偏 移 





4 Elf32_Addr p_vaddr; // 段 虚拟 地 址 

5 Elf32_Addr p_paddr; // 段 物理 地 址 

6 EJf32_Word p_filesz; // 段 在 文件 中 的 大 小 
7 EJf32_Word p_memsz ; / / 段 需要 的 内 存 大 小 
8 Elf32_Word p_flags; // 段 标志 

9 EJf32_Word p_align; // 段 对 齐 方 式 


10 } Elf32_Phdr; 


/ /程序 头 表 项 





结构 体 Elf32_Phdr 描 述 了 ELF 文 件 程序 头 表 项 的 数据 结构 ， 其 每 个 
字段 的 含义 如 下 。 


1) p_type 表 示 段 的 类 型 ， 这 里 我 们 只 关心 可 加 载 的 段 ， 取 值 为 
PT_LOAD。 


2) p_offset 表 示 段 对 应 的 内 容 在 文件 内 的 偏 移 。 


3) p_vaddr 表 示 段 在 内 存 的 线性 地 址 。 


4) p_paddr 表 示 段 在 内 存 的 物理 地 址 ， 由 于 现代 操作 系统 中 使 用 了 
分 页 机 制 ， 因 此 不 需要 关心 段 的 物理 地 址 ， 一 般 该 字段 值 与 p_vaddr 相 
同 。 但 是 对 于 未 使 用 分 页 机 制 的 系统 ， 该 字段 可 以 为 行 设置 。 





5) p_filesz 表 示 段 在 文件 内 的 大 小 。 





6) p_memsz 表 示 段 在 内 存 的 大 小 。 我 们 可 以 总 结 出 字段 2>、3、5、 
6 表达 的 含义 为 : ELF 文 件 内 从 p_offset 开 始 的 p_filesz 大 小 的 数据 块 被 加 
载 到 内 存 以 p_vaddr 开 始 的 p_ memsz 大 小 的 内 存 块 中 。 由 于 段 的 内 容 需 要 
完整 加 载 到 内 存 ， 因 此 p_memsz 字 段 的 值 一 般 等 于 p_filesz。 但 是 对 于 类 
型 为 SHT_NOBITS 的 节 ， 在 ELEF 文 件 内 不 存在 数据 。 例 如 “.bss”" 阅 ， 它 在 
ELF 文 件 内 的 大 小 为 0， 如 果 加 载 到 内 存 后 大 小 大 于 0， 那 么 其 对 应 的 程 
序 头 表 项 的 p_filesz 等 于 0， 而 P_memsz 为 一 个 正 整 数 。 





7) p_flags 表 示 段 标志 ， 与 段 表 项 的 sh_flags 类 似 ， 描 述 了 段 的 属性 
《权限 ) 。 其 中 1 表示 可 执行 ， 取 值 为 PF_X。2 表 示 可 写 ， 取 值 为 
PF_W。4 表 示 可 读 ， 取 值 为 PF_R。 段 标志 可 以 进行 复合 ， 例 如 代码 
节 “.text*? 对 应 的 程序 头 表 项 的 段 标志 为 PF_RIPF_X， 即 可 读 可 执行 。 数 
据 节 “.data" 对 应 的 程序 头 表 项 的 段 标志 为 PF_RIPF W， 即 可 读 可 写 。 











8) p_align 表 示 段 对 齐 方式 ， 对 齐 规则 为 p_vaddr%p_align=0， 即 段 
的 线性 地 址 必须 是 p_align 的 整数 倍 。 一 般 情况 下 ，p_align 取 值 为 
0x1000=4096， 即 Linux 操 作 系 统 默认 的 页 大 小 。 


如 表 5-17 所 示 ， 文 件 内 有 两 个 段 需要 加 载 ， 假 设 默认 加 载 的 线性 地 
址 为 0x08048000。 第 一 个 段 Seg1 的 文件 偏 移 为 0x*34， 加 载 后 大 小 为 
0x1030。 由 于 是 第 一 个 段 ， 因 此 加 载 地 址 为 0x08048000。 第 二 个 段 Seg2 
的 文件 偏 移 为 0x1064， 加 载 后 大 小 为 0x64。 由 于 Seg1 加 载 后 占用 了 
0x0804800~0x08049030 的 地 址 空间 ， 将 0x08049030 按 照 0x1000 对 齐 后 得 
到 Seg2 的 加 载 地 址 为 0x0804a000。 我 们 发 现 按照 这 样 的 加 载 方式 ， 共 需 
要 占用 3 个 物理 页 框 ， 对 应 线性 地 址 空间 范围 为 
0x08048000~0x0804a000。 


表 5-17 上 段 地 址 对 齐 











Linux 系 统 中 ， 当 一 个 段 大 小 不 是 页 的 整数 倍 时 ， 将 该 段 的 尾部 与 
下 一 个 段 的 开始 部 分 放 在 同一 个 物理 页 框 内 ， 以 减少 物理 内 存 的 消耗 。 
由 于 Seg1 与 Seg2 对 应 的 内 存 块 大 小 总 和 为 0x1094， 即 使 加 上 Seg1 之 前 的 
文件 内 容 大 小 0x34， 总 大 小 为 0x10c8 也 不 超过 两 个 页 框 大 小 ， 因 此 使 用 
两 个 物理 页 框 足以 完成 段 的 加 载 。 其 基本 思想 是 ， 将 ELF 文 件 从 偶 移 0 
处 开始 到 最 后 一 个 需要 加 载 的 段 结束 位 置 的 地 址 空间 ， 按 照 页 大 小 进行 
逻辑 划分 ， 形 成 多 个 页 ， 每 个 页 都 被 加 载 到 物理 页 框 中 ， 然 后 将 每 个 物 
理 页 框 映射 到 线性 地 址 空间 的 页 去 。 如 果 物 理 页 框 内 保存 了 N 个 段 的 内 
容 ， 那 么 需要 向 线性 地 址 空间 的 页 映射 N 次 。 





如 图 5-5 所 示 ， 描 述 了 ELF 文 件 内 需要 加 载 的 内 容 对 应 的 段 Seg1 和 
Seg2 的 布局 (如 果 加 载 的 内 容 包 含 “.bss” 节 ， 则 以 其 加 载 后 的 大 小 
p_memsz 为 准 ) 。 将 ELF 文 件 按 照 页 大 小 划分 ， 需 要 加 载 的 段 可 以 保存 
在 两 个 逻辑 页 内 ， 其 中 Seg1 段 被 划分 到 两 个 逻辑 页 中 。 每 个 逻辑 页 都 被 
独立 加 载 到 物理 页 框 内 ， 这 样 逻辑 块 1 对 应 的 物理 页 框 只 保存 了 Seg1 的 
上 半 部 分 内 容 Segl-1， 而 逻辑 块 2 对 应 的 物理 页 框 保存 了 Segl 的 下 半 部 
分 内 容 Seg1-2 和 Seg2 的 全 部 内 容 。 通 过 页 映射 将 物理 页 框 再 映射 到 虚拟 
内 存 页 面 ， 逻 辑 块 1 对 应 的 物理 页 框 映射 到 线性 地 址 空间 
0x08048000~0x08049000， 而 逻辑 块 2 包含 两 个 段 的 内 容 ， 因 此 需要 映射 
两 次 ， 分 别 映射 到 线性 地 址 空间 0x08049000~0x0804a000 和 
0x0804a000~0x0804b000。 我 们 可 以 看 出 在 虚拟 内 存 中 Seg1 占 据 的 线性 
地 址 空间 为 0x08048034~0x08049064，Seg2 占 据 的 线性 地 址 空间 为 
0x0804a064~0x0804a0c8。 当 然 ， 我 们 不 可 否认 ， 由 于 逻辑 块 2 对 应 的 物 
理 块 的 多 次 映射 ， 在 0x08049064 处 保存 了 Seg2 的 内 容 ， 同 理 在 
0x0804a000 处 保存 了 Seg1-2 的 内 容 。 但 是 由 于 上 段 按照 页 大 小 对 齐 的 原 
则 ， 要 求 每 个 虚拟 内 存 页 仅 保存 同一 个 段 的 内 容 ， 对 于 由 于 多 次 映射 
导致 页 内 数据 “重复 ”的 问题 并 不 关心 。 
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图 5-5 ”改进 的 段 对 齐 方式 





通过 上 述 段 地 址 的 对 齐 方 式 ， 原 本 需要 使 用 3 个 物理 页 框 保存 的 
段 ， 只 需要 两 个 物理 页 框 保存 即 可 ， 减 少 了 物理 内 存 的 消耗 ， 而 在 线性 
地 址 空间 内 仍 需要 3 个 虚拟 内 存 页 的 大 小 。 但 是 这 样 的 段 地 址 对 齐 方 式 
违反 了 p_vaddr%p_align=0 的 原则 ， 因 此 改进 的 段 地 址 对 齐 规则 描述 为 
p_vaddr%p_align=p_offset%p_align， 即 段 的 线性 地 址 与 段 对 应 文件 内 容 
偏 移 相 对 于 段 对 齐 方式 取 模 同 余 。 使 用 如 下 公式 对 p_vaddr 进 行 对齐 。 

















p_vaddr+=(p_align-p_vaddr%p_align)%p_align+p_offset%p_align 





即将 P_vaddr 按 照 p_align 正 常 对 齐 后 ， 然 后 累加 上 Pp_offset 对 p_align 
的 模 。 例 如 Seg1 的 初始 加 载 地 址 p_vaddr=0x08048000， 根 据 
p_align=0x1000 对 齐 后 仍 为 0x08048000， 累 加 
p_offset%p_align=0x34%0x1000=0x34 后 得 到 对 齐 后 的 


p_vaddr=0x08048034。 同 理 ，Seg2 的 初始 加 载 地 址 为 Seg1 加 载 后 的 下 一 
个 字 节 地 址 ，p_vaddr=0x08048034+0x1030=0x08049064， 根 据 
p_align=0x1000 对 齐 后 为 0x0804a000， 和 累加 
p_offset%p_align=0x1064%0x1000=0x64 得 到 对 齐 后 的 
p_vaddr=0x0804a064。 


使 用 命令 “readelf-l file" 可 以 查看 ELF 文 件 程序 头 表 的 完整 信息 。 





Program Headers : 


Type offset VirtAddr PhysAddr FileSiz MemSiz 

LOAD 0OXx000000 QOx08048000 QOx08048000 OQx84fd2 Ox84fd2 
LOAD 0Xx085f8c 0x080cdf8c 0x080cdf8c 0X007d4 Ox02388 
NOTE 0Xx0000f4 QOx080480f4 QOx080480f4 OxO0044 OX00044 
TLS 09Xx085f8c 0x080cdf8c 0x080cdf8c 0OX00010 OX00028 
GNU_STACK OxOQ00000 ”0x00000000 ”0x00000000 0OX00000 0OX00000 
GNU_RELRO 09Xx085f8c 0x080cdf8c 0x080cdf8c 0OX00074 OX00074 








其 中 列 名 Type 表示 程序 头 表 项 类 型 、Offset 保 存 段 数据 块 相对 文件 
开始 处 的 偏 移 、VirtAddr 表 示 线 性 地 址 、PhysAddr 表 示 物 理 地 址 、 
FileSiz 表 示 段 内 容 在 文件 内 的 大 小 、MemSie 表 示 段 加 载 后 的 内 存 大 
小 、Flg 表 示 段 标志 、Align 表 示 段 对 齐 大 小 。 


从 输出 信息 中 可 以 看 出 ， 程 序 头 表 包 含 两 个 可 加 载 (LOAD ) 类 型 
的 段 。 第 一 个 段 是 从 文件 内 偏 移 为 0 处 开始 ， 大 小 为 0x84fd2 的 文件 块 ， 
段 标 志 为 RE， 即 可 读 可 执行 ， 由 此 可 以 推断 该 段 包含 了 代码 节 “.text”， 
并 且 将 文件 头 的 内 容 也 一 起 加 载 了 。 加 载 后 的 虚拟 地 址 为 0x08048000， 
内 存 大 小 仍 为 0x84fd2， 对 齐 方式 为 0x1000。 第 二 个 段 开始 于 文件 偏 移 
0x085f8c 处 ， 是 大 小 为 0x007d4 的 文件 块 ， 段 标志 为 RW， 即 可 读 可 写 。 





段 加 载 后 的 虚拟 地 址 为 0x080cdf8c， 内 存 大 小 为 0x02388>0x007d4， 由 
此 可 以 推断 该 段 包 含 了 “.bss” 节 ， 导 致 加 载 后 的 内 存 大 小 大 于 文件 块 大 


小 。 


通过 ELF 文 件 的 程序 尖 表 ， 可 以 为 加 载 器 提供 可 执行 文件 的 详细 加 
载 信息 ， 包 括 哪些 文件 内 容 需 要 加 载 、 加 载 到 进程 地 址 空间 的 哪个 位 
置 、 页 面 的 权限 等 信息 。 


人 





ELF 文 件 的 符号 表 保存 了 程序 中 的 符号 信息 ， 包 括 程 序 中 的 文件 
名 、 函 数 名 、 全 局 变量 名 等 。 符 写 表 一 般 保存 在 名 为 “.strtab” 的 段 内 ， 
该 段 对 应 段 表 项 的 类 型 为 SHT_SYMTAB。 符 号 表 包 含 多 个 符号 表 项 ， 
每 个 符号 表 项 记录 了 符号 的 名 称 、 位 置 、 类 型 等 信息 。 符 号 表 项 的 数据 
结构 定义 为 : 


























1 typedef struct{ 
2 Elf32_Word st_name; / /符号 名 


3 Elf32_Addr st_value; // 符 号 值 

4 Elf32_Word st_size; // 符 号 大 小 
5 unsigned char st_info; / /符号 类 型 
6 unsigned char st_other; / /无 用 字段 
7 Elf32_Section st_shndx; / /符号 所 在 段 


8 } Elf32_Sym; 


// 符 号 表 项 





结构 体 Elf32_Sym 描 述 了 ELF 文 件 符号 表 项 的 数据 结构 ， 其 每 个 字 


段 的 含义 如 下 。 





1) st_name 是 一 个 4 字 节 字段 ， 记 录 了 符号 名 字符 串 在 字符 串 表 的 
偏 移 。 与 段 表 字符 串 表 类 似 ， 字 符 串 表 也 不 是 表 的 形式 ， 而 是 一 个 文件 
块 ， 保 存 了 所 有 的 符号 名 字符 串 内 容 ， 存 储 在 名 为 “.strtab” 的 段 中 。 根 
据 “.strtab” 段 的 仿 移 ， 加 上 st_name 便 可 以 访问 每 个 符号 对 应 的 符 写 名 字 
符 串 ， 因 此 和 欲 解 析 符 号 名 必须 访问 “.strtab” 段 。 与 段 表 中 提 到 
的 “.shstrtab” 段 一 起 ， 我 们 在 串 表 一 节 会 对 它们 作 详 细 描 述 。 




















2) st_value 记 录 了 符号 的 值 ， 一 般 在 可 重 定 位 目标 文件 内 ， 该 值 记 
录 了 符号 相对 于 所 在 段 基 址 的 偏 移 量 ， 而 在 可 执行 文件 内 ， 该 值 记 录 了 
符号 的 线性 地 址 。 








3) st_size 表 示 符 号 的 大 小 ， 单 位 为 字 节 。 








4) st_info 大 小 为 一 个 字 节 ， 表 示 符 写 类 型 相关 的 信息 ， 其 低 4 位 表 
示 符 号 的 类 型 使 用 宏 ELF32_ST_TYPE 获 取 ， 高 4 位 表示 符号 的 绑 定 信 
恩 ， 使 用 宏 ELF32_ST_BIND 获 取 。 符 号 类 型 为 0 时 表示 未 知 类 型 ， 取 值 
STT_NOTYPE。1 表 示 数 据 对 象 ， 比 如 变量 、 数 组 等 ， 取 值 
STT_OBJECT。2 表 示 函 数 ， 取 值 STT_FUNC。3 表 示 段 ， 取 值 
STT_SECTION。4 表 示 文 件 名 ， 取 值 STT_FILE。 符 号 绑 定 信息 为 0 时 表 
示 局 部 符号 ， 取 值 STB_LOCAL。1 表 示 全 局 符号 ， 取 值 


STB_GLOBAL。2 表 示弱 符号 ， 取 值 STB_WEAK， 为 了 简化 问题 的 讨 

















论 ， 我 们 不 关心 弱 符 号 相关 的 ELF 文 件 信息 。 


5) st_other 没 有 实际 含义 ， 默 认为 0。 


6) st_shndx 表 示 符 号 所 在 段 对 应 的 段 表 项 在 段 表 内 的 索引 ， 一 般 取 
值 为 正 整数 。 当 该 字段 为 0 时 ， 表 示 符 号 未 定义 ， 取 值 SHN_UNDEF。 
该 字段 为 0xfff1 时 ， 表 示 符 号 为 绝对 值 ， 比 如 文件 名 ， 取 值 SHN_ABS。 
该 字段 为 0xfff2 时 ， 表 示 符 号 在 COMMON 块 内 ， 取 值 
SHN_COMMON， 特 别 的 ， 此 时 符号 的 suL_value 表 示 符 号 的 对 齐 属性 。 
COMMON 块 与 “ 弱 符 号 ”的 概念 相关 ， 我 们 不 作 深入 讨论 ， 感 兴趣 的 读 
者 可 以 检索 弱 符号 的 资料 深入 了 解 。 








使 用 命令 “readelf-s file.0” 可 以 查看 ELF 文 件 符 写 表 的 完整 信息 。 





Symbol table '.symtab' contains 10 entries: 


Num: Value Size Type Bind Vis Ndx Name 
0: 00000000 0 NOTYPE LOCAL DEFAULT UND 

1: 00000000 0 FILE LOCAL DEFAULT ABS hello.c 
2: 00000000 0 SECTION LOCAL DEFAULT 工 

3: 00000000 0 SECTION LOCAL DEFAULT 

4: 00000000 0 SECTION LOCAL DEFAULT 4 

5: 00000000 0 SECTION LOCAL DEFAULT 5 

6: 00000000 0 SECTION LOCAL DEFAULT 7 

7: 00000000 0 SECTION LOCAL DEFAULT 6 

8: 00000000 29 FUNC GLOBAL DEFAULT 工 main 
9: 00000000 0 NOTYPE GLOBAL DEFAULT UND printf 





其 中 列 名 Num 表 示 符 号 表 项 索引 、Value 表 示 符 号 值 、Size 表 示 符 号 
大 小 、Type 表 示 符 号 类 型 、Bind 表 示 符 号 绑 定 信息 、Vis 信 息 不 必 关 


心 、Ndx 表 示 符 号 所 在 段 、Name 为 符号 名 。 








从 输出 信息 中 可 以 看 出 ， 符 号 表 的 第 一 项 (索引 0) 保存 无 效 符号 
表 项 ， 所 有 字段 初始 化 为 0。 索 引 为 1 的 符号 表 项 表示 文件 名 “hello.c”， 
其 类 型 为 TYPE， 绑 定 信 息 为 LOCAL，st_shndx 值 为 SHN_ABS。 索 引 为 





8 的 符号 表 项 表示 函数 名 “main”， 类 型 为 FUNC， 大 小 为 29Byte， 绑 定 信 
居 为 GLOBAL，st_shndx=1 表 示 符 号 在 代码 段 “.text*? 内 【〔 见 5.2.2 节 ELF 文 
件 的 段 表 信息 ) 。 索 引 为 9 的 符号 表 项 表示 函数 名 “printf”， 
st_shndx=SHN_UNDEF， 表 示 符 号 未 定义 〈 外 部 符号 ) ， 因 此 符号 类 型 
为 NOTYPE， 即 未 知 类 型 ， 外 部 符 写 绑 定 信息 一 般 都 是 GLOBAL。 














通过 ELF 文 件 的 符 写 表 ， 可 以 访问 所 有 符号 的 信息 ， 其 中 符号 名 、 
符号 值 和 绑 定 信息 对 链接 器 至 关 重 要 。 





5.2.5 重 定位 表 





重 定位 表 常 见于 可 重 定位 目标 文件 内 ， 对 于 静态 链接 生成 的 可 执行 
文件 ， 一 般 不 包含 重 定位 表 ， 动 态 链接 生成 的 可 执行 文件 不 在 我 们 讨论 
的 范围 内 。 重 定位 表 一 般 保 存在 以 名 为 “rel" 开 头 的 段 内 ， 该 段 对 应 段 表 
项 的 类 型 为 SHT_REL。ELF 文 件 需 要 重 定位 的 段 ， 一 般 都 对 应 一 个 重 定 
位 表 。 比 如 代码 段 “.text” 的 重 定位 表 保 存在 “.rel.text” 段 内 ， 数 据 
段 “.data” 的 重 定位 表 保 存在 “.rel.data” 内 。 重 定位 表 包 含 多 个 重 定位 表 
项 ， 每 个 重 定位 表 项 记录 一 条 重 定位 信息 ， 包 括 重 定位 的 符号 、 位 置 、 


类 型 等 信息 。 重 定位 表 项 的 数据 结构 定义 为 : 
































1 typedef Struct{ 
2 Elf32_Addr r_offset ， // 重 定位 地 址 


3 Elf32_Word r_info; // 重 定位 类 型 和 符号 


4 } Elf32_Rel; 


// 重 定位 表 项 











结构 体 Elf32_Rel 描 述 了 ELF 文 件 重 定位 表 项 的 数据 结构 ， 其 每 个 字 
段 的 含义 如 下 。 


1) r_offset 表 示 重 定位 地 址 ， 对 于 可 重 定位 目标 文件 来 说 ， 表 示 重 








定位 位 置 相 对 于 被 重 定位 段 的 基 址 的 偏 移 。 而 对 于 可 执行 文件 或 共享 目 
标 文 件 来 说 ， 表 示 重 定位 位 置 对 应 的 线性 地 址 ， 这 与 动态 链接 相关 ， 我 
们 不 作 深入 讨论 。 











2) r_info 描 述 了 重 定位 类 型 和 符 写 ， 其 低 8 位 表示 重 定位 类 型 ， 使 
用 宏 ELF32_R_TYPE 获 取 ， 高 24 位 表示 重 定 位 符 写 对 应 的 符号 表 项 在 符 
号 表 内 的 索引 ， 使 用 宏 ELF32_R_SYM 获 取 。 不 同 的 处 理 器 体系 结构 都 
有 属于 自己 的 一 套 重 定位 类 型 ， 对 于 x86 体 系 结构 而 言 ， 静 态 链接 中 管 
见 的 重 定 位 类 型 有 两 种 : 绝对 地 址 重 定位 〈 取 值 R_386_32〉 和 相对 地 址 
重 定 位 R_386_PC32。 每 条 重 定位 信息 的 含义 为 使 用 r_info 记 录 的 符号 的 
线性 地 址 ， 根 据 重 定位 类 型 更 新 r_offset 处 的 内 存 信息 。 关 于 不 同 重 定位 


类 型 的 实现 细节 ， 在 第 7 章 中 会 进行 详细 描述 。 





























使 用 命令 “readelf-r file.o” 可 以 但 看 ELF 文 件 重 定位 表 的 完整 信息 。 





Relocation section '.rel.text' at offset QOx350 contains 2 entries: 


offset Info Type Sym.Value Sym.Name 
0000000a 00000501 R_386_32 00000000 .rodata 
©00000012 ©00000902 R_386_PC32 00000000 printf 








其 中 列 名 Offset 表 示 重 定位 地 址 、Info 表 示 重 定位 信息 、Type 表 示 
重 定位 类 型 、Sym.Value 表 示 重 定位 符号 的 值 st_value、Sym.Name 表 示 
重 定 位 符号 的 名 称 。 


从 输出 信息 中 可 以 看 出 ， 重 定位 表 的 第 二 项 描述 了 使 用 符号 printf 
对 代码 段 “text" 的 0x12 处 的 内 存 进行 重 定位 ， 重 定位 类 型 为 相对 地 址 重 











定位 。 这 是 因为 在 可 重 定位 目标 文件 内，printt 是 外 部 符号 ， 无 法 确定 
它 的 线性 地 址 ， 因 此 对 printf 的 call 指 令 的 操作 数 无 法 确定 ， 必 须 由 链接 
融 根 据 该 重 定 位 信息 重新 计算 call 指 令 的 操作 数 。 

















根据 ELF 文 件 的 重 定 位 表 描 述 的 重 定位 信息 ， 链 接 器 对 目标 文件 内 
的 数据 和 代码 内 容 进行 修正 ， 保 证 了 可 执行 文件 内 的 代码 和 数据 的 完整 
| 





5.2.6” 串 表 








ELF 文 件 内 的 段 表 和 符号 表 需 要 记录 段 名 和 符号 名 ， 这 些 名称 都 是 
字符 串 。 然 而 ， 段 表 项 和 符号 表 项 部 是 固定 长 度 的 数据 结构 ， 无 法 存储 
不 定 长 的 字符 串 。 因 此 ELF 文 件 将 名 称 字 符 串 内 容 集中 存放 在 一 个 段 
内 ， 称 为 串 表 。 这 样 段 表 项 或 符号 表 项 只 需要 记录 段 名 字符 串 或 符号 名 
字符 串 在 对 应 串 表 内 的 位 置 即 可 。 虽 然 存 储 的 字符 串 内 容 称 为 串 表 ， 但 
并 非 “ 表 ”的 形式 ， 而 是 一 块 文件 区 域 。 

















使 用 命令 “hexdump-C file.o" 可 以 查看 ELF 文 件 的 所 有 信息 。 





00000000 7f 45 4c 46 01 01 01 00 00 00 00 00 00 00 00 00 | .ELF. .i | 
00000010 01 00 03 00 01 00 00 00 00 00 00 00 00 00 00 00 1, ，，，，，， 


00000020 eQ 00 00 00 00 00 00 00 34 00 00 00 00 00 28 00 | .i,, A (.| 
00000030 0b 00 08 00 55 89 e5 83 e4 f0 83 ec 10 b8 00 00 | .Ui | 
©00000040 00 00 89 04 24 e8 fc ff ff ff b8 00 00 00 00 c9 | .$i | 
00000050  c3 00 00 00 48 65 6c 6c 6f 20 57 6f 72 6c 64 21 |....Hello World!| 
00000060 00 00 47 43 43 3a 20 28 55 62 75 6e 74 75 2f 4c |..GCC: (Ubuntu/L | 


00000070 69 6e 61 72 6f 20 34 2e 34 2e 34 2d 31 34 75 62 |inaro 4.4.4-14ub| 
00000080 75 6e 74 75 35 29 20 34 2e 34 2e 35 00 00 2e 73 |untu5) 4.4.5...s| 
O00000090 79 6d 74 61 62 00 2e 73 74 72 74 61 62 00 2e 73 |ymtab..strtab..s| 
O000000a0 68 73 74 72 74 61 62 00 2e 72 65 6c 2e 74 65 78 |hstrtab..rel.tex| 
00000gb0 74 00 2e 64 61 74 61 00 2e 62 73 73 00 2e 72 6f |t..data..bss..ro| 
O00000c©O 64 61 74 61 00 2e 63 6f 6d 6d 65 6e 74 00 2e 6e |data..comment..n| 
000000d0 6f 74 65 2e 47 4e 55 2d 73 74 61 63 6b 00 00 00 |ote.GNU-stack...| 
O00000e0 00 00 00 00 00 00 00 00 00 00 00 00 O00 00 00 O00 iiss, | 
* 


00000330 00 00 00 00 10 00 00 00 00 68 65 6c 6c 6f 2e 63 |,,.,,,，,， hello.c| 
00000340 00 6d 61 69 6e 00 70 72 69 6e 74 66 00 00 00 00 | .main.printf.,... | 
00000350 0a 00 00 00 01 05 00 00 12 00 00 00 02 09 600 00 1, .，，，，，， | 
©00000360 





在 前 面 给 出 的 段 表 信息 中 ，“.shstrtab” 段 的 文件 偏 移 为 0x8d， 大 小 
为 0x51。 段 内 第 一 个 字 节 为 0x00， 表 示 空 串 “”。 后 面 依次 为 段 名 字符 


3366 
1 


串 “.symtab” .strtab” .shstrtab”.rel.text”’.data”.bss”“.rodata”.comment 
stack”。 因此 对 于 “.rel.text” 段 ， 其 段 表 项 的 字段 sh_name=0xa8- 
0x8d=0x1b。 而 对 于 “.text” 段 ， 其 段 名 是 “.rel.text” 的 后 级 ， 因 此 可 以 共享 
字符 串 存储 ， 对 应 的 段 表 项 的 字段 sh_name=0xac-0x8d=0x1f。 


而 “.strtab” 段 的 文件 偏 移 为 0x338， 大 小 为 0x15。 上 段 内 第 一 个 字 市 为 
0x00， 表 示 空 串 “”“。 后 面 依次 为 符号 名 字符 串 “hello.c” “main”“printf”。 


因此 对 于 符号 printff， 其 符号 表 项 的 字段 st_name=0x346-0x338=0x0e。 








ELF 文 件 将 字符 串 内 容 保 存 到 串 表 段 内 ， 这 样 使 用 字符 串 的 文件 结 
构 只 需要 记录 字符 串 在 哪个 段 的 哪个 位 置 即 可 。 





综 上 所 述 ， 我 们 可 以 忌 结 出 常见 ELF 文 件 结构 之 间 的 关系。 


如 图 5-6 所 示 ， 通 过 ELF 文 件 头 的 e_ph* 字 段 可 以 定位 到 程序 头 表 。 
同样 地 ， 通 过 e_sh* 可 以 定位 到 段 表 。 段 表 内 记录 了 串 表 、 符 号 表 、 重 
定位 表 对 应 的 段 ， 以 及 代码 段 和 数据 段 的 信息 ， 欲 取得 这 些 段 的 段 名 ， 
必须 通过 ELF 文 件 头 结构 提供 的 e_shstrmndx 字 段 找到 “.shstrtab” 的 段 表 
项 ， 继 而 定位 到 该 段 的 数据 ， 取 得 其 保存 的 所 有 段 的 名 字 sh_name。 通 
过 符号 表 段 “.symtab” 的 段 表 项 内 的 sh_link 字 段 记录 的 “.strtab” 段 在 段 表 
的 索引 找到 字符 串 表 ， 继 而 取得 该 表 内 保存 的 所 有 符号 的 名 字 
st_name。 重 定位 表 段 (“.rel.data” 和 “.rel.text”) 通过 其 段 表 项 内 的 
sh_info 字 段 找到 被 重 定位 的 段 ， 并 通过 重 定位 项 内 的 r_offset 找 到 需要 重 











定位 的 位 置 。 妇 外 ， 重 定位 表 还 通过 其 段 表 内 的 sh_link 字 段 找 到 被 重 定 
位 符号 所 在 的 符号 表 段 ， 并 结合 重 定 位 项 的 r_info 字 段 保 存 的 被 重 定位 
符号 在 符号 表 内 的 位 置 找到 被 重 定 位 的 符号 信息 。 
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图 5-6 ELF 文件 结构 关联 


5.3 本章 小 结 


本 章 详 细 讨 论 了 x86 指 令 格式 和 ELF 文 件 格式 的 相关 知识 。 通 过 对 
x86 指 令 结构 的 解析 ， 了 人 解 了 指令 中 的 指令 前 级 、 操 作 码 、ModR/M 字 
段 、SIB 字 段 、 偏 移 、 立 即 数 的 功能 和 含义 ， 并 对 比 了 AT&T 汇 编 格式 
与 Intel 汇 编 格 式 的 不 同 ， 以 帮助 理解 Linux 下 的 x86 汇 编 语言 。 通 过 对 
ELF 文 件 结构 的 解析 ， 了 解 了 文件 头 、 段 表 、 程 序 头 表 、 符 号 表 、 重 定 
位 表 、 串 表 的 含义 和 功能 ， 彻 底 弄 清 了 可 重 定位 目标 文件 和 可 执行 文件 
的 内 容 和 细节 。 








在 接 下 来 的 汇编 器 构造 中 ， 大 多 数 工作 都 是 集中 在 分 析 和 收集 汇编 
语言 中 与 可 重 定位 目标 文件 结构 相关 的 信息 上 ， 而 分 析 汇 编 指 令 结 构 ， 
以 及 将 之 翻译 为 二 进 制 代码 与 前 面 描述 的 x86 指 令 格 式 妃 妃 相 关 。 在 最 
后 的 链接 器 构造 中 ， 更 需要 根据 ELF 文 件 格 式 解 析 可 重 定位 目标 文件 的 
内 容 ， 生 成 可 执行 文件 。 链 接 过 程 中 的 重 定位 操作 也 需要 用 到 ELF 文 件 
的 重 定位 表 结 构 ， 以 及 x86 指 令 结构 的 相关 知识 。 

















第 6 章 “” 汇 编 厚 构造 





不 识 庐山 真面目 ， 只 缘 身 在 此 山中 。 


一 一 《 题 西 林 壁 》 





从 字面 上 来 看 ， 汇 编 器 和 编译 圳 好 像 是 两 种 完全 不 同 的 事物 ， 实 际 
上 它们 之 间 有 着 很 大 的 相似 性 。 与 其 称 为 汇编 右 ， 倒 不 如 称 作 “汇编 语 
言 编译 需 ? 更 为 合适 。 编 译 需 将 高 级 语言 翻译 为 汇编 语言 ， 而 汇编 器 将 
汇编 语言 翻译 为 二 进 制 语言 。 结 合 前 面 介绍 的 现代 编译 器 的 结构 
端 、 优 化 器 和 后 端 ， 汇 编 器 和 编译 占 拥 有 相似 的 前 端 结构 ， 即 它们 的 词 
法 分 析 器 和 语法 分 析 器 结构 基本 相同 ， 差 别 在 于 和 输入 的 数据 形式 不 同 。 
汇编 器 的 词法 分 析 占 的 输入 是 汇编 语言 的 词法 记号 ， 语 法 分 析 占 的 输入 
古 沪 编 语言 文法 。 








前 











正如 构造 编译 器 时 需要 清晰 了 解 目 定义 语言 的 特性 那样 ， 构 造 汇编 
需 时 也 要 清晰 了 解 竺 处理 的 汇编 语言 特性 。 我 们 的 目的 并 不 是 构造 一 个 
完善 的 工业 化 汇编 器 ， 拥 有 处 理 所 有 形式 汇编 指令 的 能 力 。 实 际 上 只 需 
要 处 理 已 实现 的 编译 此 生成 的 汇编 代码 所 涉及 的 指令 ， 便 达到 了 学 习 构 
造 汇编 器 的 目的 。 











结合 编译 圳 生成 的 汇编 代码 ， 我 们 对 目 定 义 的 汇编 语言 的 特性 描述 


如 下 : 


1) 符号 声明 。 文 持 NASM 格 式 的 数据 定义 、section 段 声明 、global 
全 局 符号 声明 、equ 宏 声明 等 。 汇 编 语言 的 标识 符 包 含 编译 器 生成 的 临 
时 符 写 《以 “@L” 加 数字 构成 ) 以 及 段 名 以 ‘开始 的 字符 串 〉， 因 此 
汇编 语言 标识 符 允 许 出 现 特 殊 符 写 ‘@? 和 '.。 





2) 常量 。 文 持 整 数 和 字符 串 常量 ， 其 中 整数 仅 限 十 进 制 整 数 ， 而 
字符 串 毅 量 不 包含 转 义 字符 ， 这 是 因为 编译 需 生 成 数据 段 时 将 整数 统一 
按照 十 进 制 输 出 ， 将 字符 串 转 化 为 仪 包含 可 见 字 符 的 NASM 格 式 的 字符 
串 。 





3) 寻 址 模式 。 文 持 立 即 寻 址 、 寄 存 喜 寻 址 、 寄 存 嚣 间 址 、 间 接 寻 
址 、 基 址 + 偏 移 寻 址 、 基 址 + 变 址 寻 址 的 寻 址 方式 。 我 们 的 编译 器 输出 的 
汇编 指令 中 不 存在 基 址 + 变 址 + 偏 移 的 寻 址 方式 ， 在 此 不 作 考虑 。 





4) 指令 。 文 持 编 译 器 输出 的 所 有 指令 。 其 中 包含 双 操作 指令 
mov、cmp、add、sub、and、or、lea， 单 操作 数 指 令 call、int、imul、 
idiv、neg、inc、dec、jmp、je、jne、sete、setne、setg、setge、setl、 


setle、push、pop， 无 操作 数 指令 ret。 
5) 其 他 。 文 持 分 写 开 始 的 单行 注释 。 


参考 图 2-12 描 述 的 汇编 器 的 结构 设计 ， 我 们 接 下 来 详细 阐述 汇编 器 


每 个 功能 模块 的 实现 。 


6.1 词法 分 析 


与 编译 器 词法 分 析 的 过 程 相同 (参考 图 3-1) ， 汇 编 器 的 词法 分 析 
也 需要 扫 摘 鼎 顺 序 读 取 汇编 语言 源 文 件 的 字符 ， 然 后 与 汇编 语言 词法 记 
号 的 有 限 自 动机 匹配 ， 得 到 汇编 语言 的 词法 记号 。 











因此 ， 在 汇编 器 的 词法 分 析 阶 段 ， 我 们 只 需要 弄 清 所 需 的 词法 记 
号 ， 以 及 识别 词法 记号 的 有 限 目 动机 ， 便 可 以 依 样 画 戎 户 地 构造 汇编 器 
的 词法 分 析 器 。 





6.1.1 词法 记 写 


结合 前 面 对 自 定义 汇编 语言 特性 的 描述 ， 我 们 设计 的 汇编 语言 词法 
记号 如 下 : 





1) 符号 声明 。 支 持 NASM 格 式 的 数据 定义 、section 段 声明 、global 
全 局 符号 声明 、equ 宏 声明 等 。NASM 格 式 的 数据 定义 中 ， 使 用 db、 
dw、dd 描 述 单位 内 存 的 大 小 ， 使 用 times 表 示 数 据 内 容 的 重复 次 数 ， 以 
及 使 用 喜 号 分 隔 不 同 的 数据 内 容 《〈 如 数字 和 字符 串 ) ， 因 此 涉及 的 词法 
记号 有 关键 字 db、dw、dd、times 和 分 隔 符 "，*。 另 外 ， 段 声明 、 全 局 符 
号 声明 和 宏 声明 涉及 了 关键 字 section、global 和 equ。 最 后 ， 汇 编 语 言 中 


经 常 使 用 标签 符号 〔 标 识 符 后 紧 跟 符 号“; ，) ， 因 此 ': ' 也 是 词法 记 








由 











2) 常量 。 支 持 整 数 和 字符 串 常 量 ， 涉 及 的 词法 记号 有 数字 常量 
num 和 字符 串 常量 sr。 其 中 数字 常量 文 持 十 进 制 整数 ， 因 此 人 允许 出 现 正 
负 号 和 + 和 生 '。 与 常量 对 应 的 变量 使 用 标识 符 表示 ， 因 此 标识 符 id 也 是 词 
法 记号 ， 只 不 过 汇编 语言 的 标识 符 允 许字 符 ‘@? 和 .出现 。 

















3) 寻 址 模式 。 文 持 立 即 寻 址 、 寄 存 喜 寻 址 、 寄 存 器 间 址 、 间 接 寻 
址 、 基 址 + 偏 移 寻 址 、 基 址 + 变 址 寻 址 的 寻 址 方式 。 在 各 种 寻 址 模式 中 ， 
经 常会 用 到 寄存 器 进行 寻 址 ， 因 此 所 有 的 寄存 器 名 都 是 关键 字 。 由 于 我 








们 的 编译 器 生成 的 汇编 指令 中 只 使 用 了 8 位 和 32 位 寄存 器 ， 为 了 人 简化， 
我 们 定义 了 如 下 寄存 器 名 关键 字 : 8 位 寄存 器 al、cl、dl、bl、ah、ch、 
dh、bh， 以 及 32 位 寄存 器 eax、ecX、edx、ebx、esp、ebp、esi、edi。 








4) 指令 。 文 持 编译 器 输出 的 所 有 指令 。 指 令 助 记 符 不 能 作为 一 般 
的 标识 符 使 用 ， 因 此 全 部 是 关键 字 。 包 括 双 操 作 指 令 mov、cmp、add、 
sub、and、or、lea， 单 操作 数 指令 call、int、imul、idiv、neg、inc、 
dec、 jmp、je、jne、sete、setne、setg、setge、setl、setle、push、pop,， 


无 操作 数 指令 ret。 


5) 其 他 。 文 持 分 号 开始 的 单行 注释 。 为 了 方便 处 理 ， 我 们 假定 编 
译 需 生成 的 汇编 语言 是 没有 错误 的 。 即 便 如 此 我 们 也 需要 词法 记号 err 表 
示 无 效 的 词法 记号 〈 如 注释 ) ， 词 法 分 析 器 或 语法 分 析 器 都 目 动 忽略 这 
个 词法 记号 。 同 样 地 ， 还 有 一 个 词法 记号 end， 它 表示 文件 结束 。 

















于 是 ， 我 们 得 到 上 自 定义 汇编 语言 所 有 的 词法 记号， 如 表 6-1 所 示 。 





表 6-1 汇编 词法 记号 
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同样 地 ， 我 们 使 用 一 个 枚 举 类 型 记录 所 有 的 词法 记号 标签 ， 为 后 面 
的 代码 提供 符号 定义 。 





1 /* 
2 ”词法 记号 标签 





3 
4 


14 


A 


enum Tag 


ERR, 


END, 


ID, 


NUM, STR, 


BR_AL, BR_CL, BR_DL, BR_BL, 





BR_AH, BR_CH, BR_DH, BR_BH, 
DR_EAX, DR_ECX, DR_EDX, DR_EBX， 








DR_ESP, DR_EBP, DR_ESI, DR_EDI, 
I_MOV, I_CMP, I_SUB, I_ADD, I_AND, I_OR, I_LEA, 








I_CALL,I_INT,I_IMUL,I_IDIV,I_NEG,I_INC,I_DEC， 





I_JMP,I_JE,I_JNE， 
I_SETE,I_SETNE,I_SETG,I_SETGE,I_SETL,I_SETLE， 
I_PUSH, I_POP， 

I_RET, 

KW_SEC, KW_GLB, KW_EQU, KW_TIMES, 





KW_DB, KW_DW, KW_DD, 
ADD, SUB, COMMA, LBRAC, RBRAC, COLON 


/ /文件 结束 标记 


/ /标识 符 


/ /8 位 寄存 器 


//32 位 寄存 器 


// 双 操作 数 指令 


/ / 单 操作 数 指令 





/ /声明 


// 界 符 





6.1.2 有限 自动 机 





汇编 器 的 词法 记号 相对 于 编译 占 要 简单 很多， 因此 汇编 语言 词法 记 
号 的 有 限 目 动机 形式 也 相对 人 简单。 我 们 重点 介绍 汇编 器 中 与 编译 器 差别 
较 大 的 有 限 目 动机 的 构造 。 








1. 标 识 符 


由 于 编译 器 生成 的 汇编 代码 中 ， 字 符 '@' 用 于 修饰 自动 生成 的 符 
号 ， 字 符 “? 用 于 引导 段 和 名， 因此 汇编 器 的 标识 符 中 允许 出 现 这 两 个 字 
人 符 。 因 此 ， 汇 编 语言 标识 符 有 限 自 动机 如 图 6-1 所 示 。 








@|.|-|A-Zla-z|0-9 


: i 


图 6-1 标识 符 有 限 自动 机 





2. 关 键 字 


汇编 语言 包含 大 量 的 关键 字 ， 这 是 因为 除了 一 般 的 关键 字 外 ， 汇 编 








旨 令 的 助 记得、 寄存 器 名 也 必须 是 唯一 的 。 除 了 在 数量 上 汇编 强 比 编译 
如 的 关键 字 多 之 外 ， 对 于 关键 字 的 识别 方式 汇编 费 和 编译 占 完 全 相同 。 
这 里 读者 可 以 参考 编译 右 中 关键 字 间 市 描述 的 内 容 。 


.第 量 


CUD 








汇编 器 涉及 的 第 量词 法 记号 有 两 种 : 数字 常量 和 字符 串 凋 量 ， 且 形 
式 比 编译 圳 的 更 加 简单 。 


对 于 数字 常量 ， 我 们 设计 的 词法 分 析 器 仅 考 虑 十 进 制 非 负 整数 ， 至 
于 正 负 号 交 给 语法 分 析 器 处 理 。 因 此 数字 词法 记号 的 定义 为 数字 字符 
0~9 的 任意 组 合 。 其 有 限 自动 机 结构 如 图 6-2 所 示 。 

对 于 字符 串 常量 ， 由 于 汇编 语言 使 用 了 数字 代 蔡 了 字符 串 内 出 现 的 
特殊 字符 (换行 、 表 符 等 ) ， 因 此 汇编 语言 字符 串 有 限 自 动机 内 不 需要 
考虑 转 义 字符 的 情况 。 其 有 限 自动 机 结构 如 图 6-3 所 示 。 











0-9 


-3 


图 6-2 ”整数 有 限 目 动机 


图 6-3 ”字符 串 有 限 目 动机 


4. 界 符 


在 我 们 定义 的 汇编 语言 中 ， 只 有 单字 市 界 符 存在 ， 且 只 有 6 个 ， 分 
别 是 表示 整数 符号 的 + 和 一 、 分 隔 符 ，”、 指 令 的 内 存 操作 数 所 需 的 符 
号 人 和、 标签 使 用 的 ‘:，。 其 识别 方式 与 编译 器 的 界 符 相 同 。 





5 无效 词法 记号 





我 们 定义 的 汇编 语言 涉及 的 无 效 词法 记号 也 包含 空白 字符 和 注释 ， 
其 中 空白 字符 的 识别 方式 与 编译 器 完全 相同 ， 而 注释 “退化 ?为 以 ; 开 
始 的 单行 注释 。 其 有 限 自 动机 结构 如 图 6-4 所 示 。 
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图 6-4 注释 有 限 目 动机 
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根据 以 上 对 汇编 语言 词法 记号 有 限 自 动机 的 描述 ， 结 合 编译 器 草 市 
对 词法 分 析 右 、 解 析 峰 的 构造 原理 ， 不 难 构造 出 汇编 器 的 词法 分 析 峰 。 





6.2 ”语法 分 析 


我 们 的 汇编 器 语法 分 析 需 也 是 使 用 递归 下 降 子 程序 的 方式 实现 的 ， 
与 编译 占 间 市 描述 的 语法 分 析 类 似 ， 明 确 语言 的 文法 定义 是 构造 语法 分 
析 器 的 前 提 。 








6.2.1 汇编 语言 程序 


相 比 于 局 级 语言 ， 沪 编 语言 在 语法 结构 上 要 简单 许多 。 宏 观 上 来 
看 ， 汇 编 语言 程序 包含 两 个 重要 的 组 成 部 分 : 声明 和 指令 。 























例如 汇编 程序 : 

1 section .data / /数据 段 声明 
2 array times 256 db 0 / /数组 数据 定义 
3 x db 100 / /变量 数据 定义 
4 Section .text / /代码 段 声明 
5 global main / /全 局 符号 声明 
6 main: / /标签 数据 定义 
7 ret / /指令 














整个 汇编 语言 程序 是 声明 和 指令 的 “无 限 ” 组 合 ， 因 此 使 用 如 下 产生 
式 可 以 描述 汇编 语言 程序 。 














<program>-><segment><program> | : 


<Segment>-><dec> | <inst> 





1) 段 声明 ， 用 于 声明 一 个 新 的 段 ， 例 如 section.text。 
2) 全 局 符号 声明 ， 用 于 声明 全 局 符号 ， 例 如 global main 。 


3) 数据 定义 ， 用 于 定义 数据 或 标签 等 。 形 如 array times 256 db 0 


章 


数据 定义 的 形式 可 能 有 很 多 种 ， 不 过 它们 都 是 以 标识 符 ID 开 始 ， 不 
同 于 段 声明 以 KW_SEC 开 始 ， 以 及 全 局 符号 声明 以 KW_GLB 开 始 。 





指令 部 分 则 是 以 不 同 的 汇编 指令 助 记 符 开始 的 ， 可 以 与 声明 完全 区 
分 开 。 因 此 我 们 可 以 使 用 如 下 的 产生 式 序列 表达 汇编 语言 程序 。 








<program>->Kw_SEC ID <program> 


| KW_GLB ID <program> 


| ID <lbtail> <program> 


| <inst> <program> 


其 中 非 终结 符 <lbtail> 表 示 以 标识 符 开 始 的 数据 定义 的 后 半 部 分 。 由 
于 以 上 产生 式 不 包含 公共 的 左 公 因子 ， 因 此 可 以 同时 出 现在 <program> 
右 侧 的 产生 式 中 。 








按照 编译 器 章节 对 递归 下 降 子 程序 构造 方式 的 描述 ，<program> 对 
应 的 子 程 序 的 代码 为 : 





1 void Parser::program 


() 
2 + 
3 switch(look->tag){ 
4 case END 
/ /文件 结束 ， 停 止 语法 分 析 

5 return; 
6 case KW_SEC 

// 段 声明 
7 match(ID 
); 
8 break; 
9 case KW_GLB 

/ /全 局 符号 声明 
10 match(ID 
); 
11 break; 
12 caseID 


13 lbtail 


break; 
default: 


inst 


} 


program 


/ /指令 


6.2.2 ”数据 定义 


鉴于 汇编 语言 中 数据 定义 形式 的 多 样 性 ， 我 们 将 其 公共 首部 ID 提取 
出 来 ， 剩 余 的 尾部 统称 为 <lbtail>。 汇 编 语言 的 数据 定义 有 以 下 几 种 形 
式 : 








1) 纯 标 签 ， 用 于 表示 一 个 地 址 ， 如 “main: ” 

2) 宏 定 义 ， 用 于 表示 立即 数 ， 如 len equ 100。 

3) 数据 ， 用 于 表示 变量 ， 如 x dd 100。 

4) 包含 times 修 饰 的 数据 ， 用 于 表示 数组 ， 如 array times 100 db 0。 


前 面 两 种 形式 易于 理解 ， 使 用 如 下 产生 式 表示 : 





<lbtail>->COLON | KW_EQU NUM 





后 面 两 种 统称 为 NASM 格 式 的 数据 ， 拥 有 公共 的 尾部 ， 差 别 在 于 是 
个 使 用 times 进 行 修饰 。 我 们 使 用 非 终 结 符 <basetail> 表 示 公 共 的 尾部 ， 
则 使 用 如 下 产生 式 表 示 NASM 格 式 的 数据 : 


<lbtail>->Kw_TIMES NUM <basetail> | <basetail> 


将 以 上 产生 式 合并 ， 得 到 <lbtail> 的 产生 式 : 


1 


<lbtail>->COLON 


| KW_EQU NUM 


| KW_TIMES NUM <basetail> 


| <basetail> 





NASM 格 式 的 数据 尾部 <basetail> 包 含 两 个 部 分 ， 用 于 描述 单元 内 存 
大 小 的 KW_DB、KW_DW、KW_DD (我 们 称 为 <len>) ， 以 及 用 于 描 
述 数据 内 容 的 <value>。 因 此 <basetail> 的 产生 式 描述 为 : 





<basetail>-><len> <value> 


<len>->KW_DB | KW_DW | Kw_DD 





其 中 <value> 是 使 用 去 号 分 割 的 任意 多 个 常量 (数字 常量 NUM 和 字 


符 串 常量 ST) 和 变量 (标识 符 ID〉 的 重复 序列 ， 其 产生 式 描述 如 下 : 





<value>-><type> <valtail> 


<valtail>->COMMA <type> <valtail> |s 


<type>->NUM | <off> NUM | STR | ID 


<off>->ADD | SUB 





非 终结 符 <type> 表 示 重 复 序列 中 的 每 一 个 元 素 ，<valtail> 用 于 表达 
重复 的 以 返 号 开始 的 子 序 列 。<type> 的 产生 式 中 ， 使 用 <off> 表 达 数 字 第 


量 的 正 负 符 号 。 





根据 以 上 产生 式 ， 相 信 不 难 构造 出 对 应 的 递归 下 降 子 程序 。 


构造 汇编 指令 的 文法 需要 考虑 指令 的 结构 和 操作 数 访问 模式 ， 结 合 
前 面 章 节 对 x86 指 令 的 格式 的 描述 ， 我 们 可 以 先 考 感 指令 的 通用 形式 。 


操作 符 [ 目 的 操作 数 ][ 源 操作 数 ] 


通用 的 指令 形式 包含 操作 符 、 目 的 操作 数 、 源 操作 数 三 部 分 |， 由 于 
我 们 的 编译 器 没有 生成 包含 指令 前 级 的 汇编 指令 ， 因 此 这 里 不 考虑 指令 
前 绥 的 存在 。x86 指 令 集 的 操作 数 是 可 选 部 分 ， 因 此 可 以 将 x86 指 令 分 为 
三 大 类 : 双 操 作 数 指令 、 单 操作 数 指令 和 无 操作 数 指令 。 使 用 文法 描述 
如 下 。 





<inst>-><doubleop> <oprand> COMMA <oprand> 


| <singleop> <oprand> 


| <noneop> 


<doubleop>->I_MOV | I_CMP | I_SUB | I_ ADD 


| I_AND | I_OR | I_LEA 


<singleop>->I_CALL | I_INT | IIMUL | IIDIV | 


| I_NEG | I_INC | I_DEC 


| I_IMP | I_JE | I_JNE 


| I_SETE | I_SETNE | I_SETG | I_SETGE | I_SETL 


| I_SETLE | I_PUSH | I_POP 


<noneop>->I_RET 





其 中 <doubleop>、<singleop>、<noneop> 分 别 表示 双 操 作 数 指令 操 
作 符 、 单 操作 数 指令 操作 符 和 无 操作 数 指令 操作 符 。 


<oprand> 表 示 任 意 形 式 的 操作 数 ， 其 文法 定义 与 x86 指 令 的 操作 数 
寻 址 模式 轧 轧 相关 。 在 x86 指 令 集中 ， 操 作 数 的 来 源 有 三 种 ， 即 立即 
数 、 寄 存 器 和 和 内存， 分 别 对 应 立即 寻 址 、 寄 存 器 寻 址 和 内 存 寻 址 。 立 即 
数 有 两 种 形式 ， 即 数字 常量 NUM 和 用 于 表示 地 址 或 者 值 的 标识 符 ID。 
因此 ，<oprand> 文 法 定义 为 : 











<oprand>->NUM | ID | <reg> | <mem> 





非 终 结 符 <reg> 表 示 寄 存 器 操作 数 ， 我 们 定义 的 汇编 语言 只 使 用 了 8 
位 和 32 位 通用 寄存 器 ， 因 此 使 用 的 寄存 器 一 共 是 16 个 。 





<reg>->BR_AL | BR_CL | BR_DL | BR_BL 


| BR_AH | BR_CH | BR_DH | BR_BH 


| DR_EAX | DR_ECX | DR_EDX | DR_EBX 


| DR_ESP | DR_EBP | DR_ESI | DR_EDI 











非 终 结 符 <mem> 表 示 内 存 操作 数 ， 根 据 前 面 革 市 对 x86 指 令 内 存 寻 
址 的 描述 ， 内 存 操作 数 的 一 般 形 式 为 : 


<mem> ->LBRAC <addr> RBRAC 


其 中 <addr> 表 示 内 存 地 址 ， 内 存 寻 址 模式 有 直接 寻 址 、 寄 存 需 间 
址 、 基 址 + 偶 移 寻 址 、 基 址 + 变 址 寻 址 和 基 址 + 变 址 + 偶 移 5 种 寻 址 模式 。 
除了 直接 寻 址 模式 的 内 存 地 址 为 立即 数 〈 或 者 称 为 偏 移 ) 之 外 ， 其 他 寻 
址 模式 都 是 以 寄存 器 名 开始 的 地 址 表达 式 ， 因 此 内 存 操作 数 的 文法 定义 
订 : 








<addr>->NUM | ID | <reg> <regaddr> 








其 中 <regaddr> 表 示 以 寄存 器 名 开始 的 地 址 表达 式 的 后 半 部 分 ， 如 果 
<regaddr> 为 空 则 表示 寄存 器 间 址 ， 人 否则 表示 包含 基 址 寄存 器 的 寻 址 模 
式 。 











<regaddr>-><off> <regaddrtail> | =* 








由 于 编译 器 没有 生成 包含 基 址 + 变 址 + 偏 移 寻 址 的 操作 数 ， 因 此 
<regaddrtail> 表 示 偏 移 或 变 址 寄存 器 。 








<regaddrtail>->NUM | <reg> 





人 至此， 汇编 指令 的 文法 构造 完毕 。 接 下 来 与 编译 天 类 似 ， 我 们 需要 
为 语法 分 析 器 的 递归 下 降 子 程序 添加 语义 动作 解析 汇编 语言 语法 模块 的 
语义 。 


条 


在 编译 属 中 ， 为 了 管理 高 级 语言 中 的 符号 ， 包 括 变量 名 、 胃 数 多 
等 ， 需 要 构建 符号 表 保 存 符号 名 与 相应 数据 结构 的 对 应 关系。 同样 地 ， 
在 汇编 器 中 ， 仍 再 要 实现 对 符号 信息 的 按 名 访问 。 

















如 图 6-5 所 示 ， 汇 编 语 言 的 符号 来 源 有 四 种 。 


1) 数据 : 用 于 表示 一 段 内 存 区 域 的 起 始 位 置 ， 一 般 存 在 于 数据 段 
中 。 它 可 能 来 源 于 高 级 语言 中 全 局 变量 〈 数 组 ) 的 定义 ， 也 可 能 来 目 纺 
译 吉 为 常量 字符 串 生 成 的 名 字 标 签 。 

2) 标签 : 用 于 表示 一 个 内 存 地 址 ， 一 般 存 在 于 代码 段 中 。 它 可 能 
来 目 于 高 级 语言 中 的 函数 名 ， 也 可 能 来 自 翻 译 复合 语句 产生 的 标签 。 

3) 宏 : 用 于 表示 一 个 立即 数 ， 相 当 于 为 一 个 数字 常量 起 了 一 个 名 
字 。 我 们 的 编译 器 未 生成 宏 符 号 ， 不 过 由 于 该 类 型 的 符号 在 汇编 语言 中 
较为 钊 见 ， 我 们 的 汇编 右 处 理 该 符号 。 











4) 外 部 符号 : 用 于 表示 引用 的 其 他 文件 的 数据 或 标签 。 一 般 表示 
个 外 部 全 局 变量 《数组 ) 的 名 字 ， 或 外 部 函数 的 名 字 。 








var dd 100 
@L0 db "hello " 


len equ 236 


nov eax, [ext] 
call fun 















]mp @L20 
GL20 : 


图 6-5 ”汇编 符号 来 源 


6.3.1 数据 结构 











根据 汇编 语言 符号 的 来 源 ， 我 们 定义 了 汇编 符号 的 数据 结构 如 下 。 





1 struct lb_record 








. static int curAddr; / /表示 已 分 析 的 段 的 长 度 
3 string segName; / /符号 所 在 段 名 

4 string lbName; / /符号 名 

5 bool isEqu; / /是 否 是 宏 

6 bool externed; / /是 否 是 外 部 符号 
7 bool global; / /是否 是 全 局 符号 
8 int addr， / /符号 逻辑 地 址 

9 int times,; // 内 存单 元 重复 次 数 
10 int len; // 单 位 内 存 大 小 
11 list<int> cont; / /符号 内 容 

12 lb_record(string n,bool ex=false); / /标签 或 外 部 符号 


13 1b_record(string n,int v); /V/ 宏 符号 


14 lb_record(string n,int t,int 1,1ist<int> c); / /数据 符号 


15 void write(); / /输出 符号 内 容 





1) 字段 curAddr 表 示 汇 编 占 语法 分 析 过 程 中 ， 当 前 分 析 的 段 的 长 
度 ， 也 就 是 下 一 个 符号 的 起 始 地 址 (相对 于 段 起 始 地 址 的 偏 移 、 ， 初 始 
值 为 0。 汇 编 语言 数据 段 中 的 数据 和 代码 段 中 的 指令 都 需要 占用 内 存 空 
间 ， 因 此 在 分 析 这 些 数据 时 ， 会 不 断 地 将 其 占用 内 存 的 大 小 累加 到 该 字 
段 。 








SA 


2) 字段 segName 表 示 符 号 所 在 的 段 名 。 


— 


3) 字段 IJbName 表 示 符 号 的 名 称 。 





a 





4) 字段 isEqu 表 示 符 号 是 否 是 宏 ， 如 果 是 宏 符 号， 该 字段 置 为 


true。 











5) 字段 externed 表 示 符 号 是 人 否 是 外 部 符号 ， 如 果 是 外 部 符号 ， 该 字 
段 置 为 true。 
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6) 字段 global 表 示 符 
置 为 true。 








7) 字段 addr 表 示 符 号 的 逻辑 地 址 ， 如 果 符 号 是 宏 符号 ， 则 表示 宏 


的 值 。 





8) 字段 times 表 示 数 据 符 号 定义 中 内 存单 元 的 重复 次 数 ， 默 认 值 为 


一 
O 








9) 字段 len 表 示 数 据 符号 定义 中 单位 内 存 的 大 小 ， 取 值 为 1、2、4 
字 节 ， 分 别 对 应 db、dw、dd。 





10) 字段 cont 表 示 数 据 符 号 定义 中 的 数据 内 容 ， 汇 编 器 将 符号 的 数 
据 内 容 按 字 贡 拆 分 ， 保 存 到 一 个 整数 链表 内 。 


11) 第 12 行 构造 函数 用 于 创建 标签 符号 或 外 部 符号 ， 参 数 ex 指定 符 
号 是 否 是 外 部 符号 。 默 认 情 况 下 直接 使 用 标签 名 创建 的 符号 对 象 都 是 汇 
编 文 件 内 定义 的 标签 符号 。 





12) 第 13 行 构造 函数 用 于 创建 宏 符号， 参数 v 表 示 宏 的 值 。 





13) 第 14 行 构造 函数 用 于 创建 数据 符号 ， 参 数 t 表 示 内 存单 元 重复 
次 数 ， 参 数 ] 表 示 内 存单 元 大 小 、 参 数 c 表 示 数 据 符号 的 内 容 。 








14) 函数 write 输 出 标签 在 内 存 中 的 内 容 。 由 于 只 有 数据 符号 占用 内 
存 ， 因 此 该 函数 只 对 数据 符号 有 效 。 在 目标 文件 生成 章节 会 对 该 函数 的 
实现 进行 描述 。 











明确 了 符号 数据 结构 的 定义 ， 可 以 很 容易 构建 汇编 占 的 符号 表 数 据 





结构 。 汇 编 器 的 符号 表 结 构 相 对 简单 ， 本 质 上 是 一 个 以 符号 名 字符 串 为 
键 的 散 列 表 ， 值 元 素 类 型 为 lb_record*。 





1 class Table 


{ // 符 号 表 

2 int hasName(string name); / /查询 符号 
3 public: 

4 hash_map<string, lb_record*, string_hash> lb_map; / /符号 散 列表 

5 void addlb(1lb_record*p_1b); / /添加 符号 
6 lb_record * getlb(string name); / /获取 符号 
7 void switchSeg(); // 段 切换 
8 void exportSyms(); / /输出 符号 
19 }; 





符号 表 使 用 hash_map 作 为 内 部 存储 数据 结构 。 





1) 私有 方法 hasName 用 于 查询 符号 是 否 存 在 ， 若 符号 存在 则 返 





2) 方法 addlb 癌 符 写 表 中 添加 符号 ， 奉 锐 添 加 的 符号 已 经 存在 ， 需 
要 进行 特殊 处 理 。 


3) 方法 getlb 从 符号 表 中 取出 符号 ， 如 果 符 写 不 存在 ， 则 需要 进行 
特殊 处 理 。 


4) 方法 switchSeg 用 于 同步 当前 符 写 所 在 段 的 上 下 文 信息 。 





5) 方法 exportSyms 将 符号 信息 导出 到 elf 可 重 定位 目标 文件 。 





6) 方法 write 用 于 输出 数据 段 的 符号 内 容 。 





汇编 器 除了 为 竺 号、 符号 表 建 立 相 应 的 数据 结构 外 ， 还 需要 为 分 析 
的 汇编 指令 建立 对 应 的 数据 结构 。 








1 struct ModRM 


{ 


2 int mod; 
3 int reg; 
4 int rm; 
5 }; 
6 struct SIB 
{ 
7 int scale; 
8 int index; 
9 int base,; 
10 }; 
11 struct Inst 
{ 
12 unsigned char opcode; 
13 int disp; 
14 int imm32; 
15 int dispLen; 
16 }; 


17 extern ModRM modrm; 
18 extern SIB sib,; 
19 extern Inst instr; 





我 们 使 用 三 个 人 简单 的 全 局 结构 体 对 象 instr、modrm 和 sib 记录 汇编 器 


语法 分 析 过 程 中 得 到 的 指令 及 其 相关 的 ModRM 和 SIB 字 段 的 信息 。 


回顾 第 5 章 对 x86 指 令 结构 的 描述 ， 可 以 确定 ModRM 中 ，mod 字 段 
取 值 范围 为 0~3，reg 字 段 取 值 范围 为 0~7，rm 字 段 取 值 范 围 为 0~7。mod 
字段 初始 值 为 -1， 表 示 不 存在 ModRm 字 段 ， 这 是 为 何不 使 用 “位 域 ” 定 
义 ModRM 结 构 体 的 原因 (当然 ， 也 可 以 添加 一 个 bool 字 上 段 专 门 表达 该 
言 轧 ) 。 同 样 地 ，SIB 中 的 scale 字 段 取 值 范围 为 0~3，index 字 段 取 值 范 
围 为 0~7，base 字 段 取 值 范 围 为 0~7。scale 字 段 初 始 值 为 -1， 表 示 不 存在 
SIB 字 段 。Imst 记 录 了 指令 中 涉及 的 其 他 字段 ， 操 作 码 opcode 字 段 实际 并 
未 使 用 ，disp 表 示 偏 移 字 段 ，imm32 表 示 立 即 数 字段 ，dispLen 表 示 偏 移 
字段 的 长 度 〈 取 值 1 或 4 字 节 ) 。 





号 管理 涉及 符号 对 象 的 创建 、 添 加 到 符号 表 以 及 从 符号 表 中 取出 
符号 的 操作 。 由 于 不 需要 考虑 汇编 语法 的 正确 性 ， 因 此 相对 于 编译 露 的 
符号 表 管 理 ， 汇 编 右 的 符号 管理 相对 简单 。 


2 
eb 


1. 创 建 符号 对 象 





在 汇编 语言 中 ， 本 地 声明 的 符号 一 般 是 以 标识 符 开 始 的 一 段 声明 或 
定义 。 根 据 语 法 分 析 章 节 对 符号 定义 尾部 <lbtail> 的 描述 ， 我 们 在 其 递归 
下 降 子 程序 中 插入 创建 符合 对 象 的 语义 动作 。 





1 void Parser::lbtail 


(string lbName) 区 

2 move( ); 

3 switch(look->tag) { 

4 case KW_TIMES 

5 match(NUM); 

6 basetail(lbName, ( (Num*)look)->val); 
7 break; 

8 case KW_EQU 

9 match(NUM); 

10 table.addlb(new lb_record(lbName, ((Num*)look)->val)); 
11 break; 

12 case COLON 

13 table.addlb(new lb_record(lbName)); 

14 break; 

15 default: 

16 basetail(lbName, 1); 





递归 下 降 子 程序 lbtail 根 据 读 入 的 词法 记号 决定 不 同 的 语义 动作 。 如 
果 读 入 词法 记号 times， 则 认为 是 形 如 “array times 100 db 0” 的 包含 times 
的 数据 定义 ， 因 此 继续 读 入 重复 次 数 ， 并 将 该 值 取 出 ， 与 符号 名 lbName 
一 起 传递 给 basetail 继 续 处 理 。 如 果 读 入 词法 记号 equ， 则 认为 是 宏 定 
义 ， 将 宏 的 值 取出 ， 创 建 符号 对 象 ， 添 加 到 符号 表 。 如 果 读 入 词法 记 
号 ': ”， 则 认为 是 标签 符号 ， 则 直接 创建 符号 对 象 ， 添 加 到 符号 表 。 最 
后 一 种 情况 表示 不 包含 times 的 一 般 数 据 定义 形式 ， 我 们 认为 times 的 值 
为 1， 与 第 一 种 情况 处 理 类 似 。 





1 void Parser::basetail 


(string lbName,int times) { 

2 int 1=len(); 

3 value(lbName, times,1); 

4 } 

5 int Parser::len 

() 二 

6 move( ) ， 

7 switch(look->tag) { 

8 case KW_DB 

: return 1; 

9 case KW_DW 

: return 2; 

10 case KW_DD 
return 4; 

11 default: return 90; 

12 } 

13 


14 void Parser::value 


(string lbName,int times,int len) { 
15 list<int> cont; 
16 type(cont, len); 


17 valtail(cont, len); 

18 table.addlb(new lb_record(lbName, times, len,cont)); 
19 } 

20 void Parser::type 


(list<int>& cont, int len) { 
21 move( ); 


22 Switch(1Look->tag) 

23 

24 case NUM 

25 cont .push_back(((Num*)look)->val) 

26 break; 

27 case STR 

28 for(int i=0; i < ((Str*)look)->str.size(); i++) { 
29 cont.push_back(((Str*)look)->str[i]) 

30 } 

31 break; 

32 case ID 

33 cont.push_back(table.getlb(((Str*)look)->str)->addr); 
34 break; 

35 default: 

36 

37 } 


38 void Parser::valtail 


(list<int>& cont, int len) { 


39 if(match (COMMA 

)) { 

40 type(cont, len); 

41 valtail(cont, len); 
42 } 

43 } 





递归 下 降 子 程序 basetail 的 目的 是 读 取 并 记录 数据 定义 的 内 容 ， 实 现 
稍微 复杂 ， 本 质 上 是 对 NASM 格 式 数据 定义 的 处 理 。 





首先 它 调用 len 获 取 数 据 单元 的 大 小 ，len 函 数 根据 数据 定义 关键 字 
KW_DB、KW_DW、KW_DD 返 回 数据 内 存单 元 的 大 小 1、2、4 字 节 。 
然后 将 符号 名 、 数 据 内 容重 复 次 数 times 以 及 内 存单 元 大 小 传递 给 value 





函数 继续 处 理 。 


value 函 数 创 建 list<int> 类 型 的 对 象 cont， 用 于 记录 数据 定义 的 内 
容 。 其 中 type 函 数 处 理 各 种 类 型 的 数据 内 容 ， 包 括 数 字 、 字 符 串 和 标识 
符 地 址 。valtail 函 数 处 理 豆 号 分 隔 的 多 个 数据 内 容 的 情况 。 





在 type 函 数 中 ， 如 果 读 入 词法 记 写 为 数字 ， 则 将 数字 的 值 取 出 放 入 
cont。 如 果 读 入 的 词法 记 写 为 字符 串 ， 则 将 字符 串 内 的 字符 按 顺 序 依 次 
放 入 cont。 如 果 读 入 的 词法 记号 为 标识 符 ， 则 先 从 符号 表 中 取出 该 符号 
对 象 ， 然 后 将 符号 的 地 址 放 入 cont( 这 种 情况 会 涉及 符号 不 存在 的 情 
况 ， 稍 后 会 描述 ) 。 








最 后 value 使 用 处 理 后 的 cont， 与 符号 名 、 数 据 重复 次 数 以 及 内 存单 
元 大 小 ， 创 建 数据 定义 符号 对 象 ， 并 添加 到 符号 表 。 


2. 添 加 符号 对 象 


从 前 面 描述 的 内 容 可 知 ， 每 次 创建 符号 对 象 时 都 会 调用 addlb 把 符 
号 添加 到 符号 表 。 琴 加 符号 的 方法 需要 进行 特殊 处 理 ， 这 是 因为 汇编 语 
言 符 号 定义 和 使 用 的 特殊 性 一 一 汇编 语言 允许 符号 的 后 置 定义 。 例 如 汇 


前 语句]: 


Ep 





jmp @LO 
Q@LO: 





指令 jmp 的 目标 标签 @L0 的 定义 可 以 出 现在 该 指令 之 后 ， 这 样 束 带 
来 一 个 问题 。 由 于 汇编 器 的 词法 分 析 费 是 按 序 扫描 源 程序 的 ， 当 人 处理 到 
jmp 指 令 时 ， 会 从 符号 表 内 碍 询 符 号 @L0 的 信息 ， 显 然 此 时 符号 表 内 并 
无 该 符号 的 信息 ， 汇 纺 吉 会 将 符号 @L0 作 为 外 部 符号 对 符 。 而 当 词 法 分 
析 融 扫描 到 符号 @L0 的 定义 时 ， 才 将 符号 @L0 的 定义 信息 添加 到 符号 
表 ， 显 然 符号 @L0 并 非 外 部 符号 。 类 似 的 情况 还 会 以 如 下 方式 出 现 : 





section .text 

mov [var], 100 
section .data 

var dd 0 


一 般 在 汇编 程序 中 ， 会 出 现 数 据 段 “.data” 定 义 在 代码 段 “.text” 之 后 
的 情况 ， 那 么 在 汇编 器 处 理 代 码 段 中 的 指令 时 ， 所 有 指令 引用 的 数据 段 
的 符号 都 不 会 在 符号 表 内 存在 。 当 然 ， 我 们 的 编译 器 在 生成 汇编 代码 
时 “刻意 ?将 数据 段 放 在 了 代码 段 的 前 面 ， 但 仍 不 能 避免 符号 定义 出 现在 
符号 使 用 之 后 的 情况 。 














解雇 该 问题 的 办 法 是 汇编 器 需要 对 汇编 程序 进行 两 和 通 扫描 。 第 一 次 
扫描 时 ， 汇 编 器 将 引用 的 不 在 符号 表 内 的 符号 作为 外 部 符号 进行 处 理 ， 
添加 到 符号 表 。 而 当 扫描 到 符号 @L0 的 定义 时 ， 使 用 该 符号 的 定义 信息 
倒 换 原 有 的 符号 信息 。 到 第 二 次 扫描 时 ， 可 以 确定 所 有 汇编 程序 内 定义 
的 符 号 信息 都 保存 到 了 符号 表 ， 当 再 次 遇 到 使 用 符号 的 指令 时 便 可 以 从 
符号 表 内 查询 出 该 符号 的 “真正 信息， 而 那些 仍 为 外 部 符号 的 符号 表 项 
可 以 确定 是 真正 的 外 部 符号 ， 即 不 在 汇编 程序 内 定义 。 
































一 


1 int ScanLop = 0; / /扫描 次 数 


2 void Parser::analyze 


() I 

3 if(++scanLop <= 2) { / / 两 遍 扫 描 

4 move( ); // 读 入 词法 记号 
5 program( ); // 语 法 分 析 

6 analyze( ); 

7 } 

8} 











实现 汇编 程序 的 两 过 扫描 很 简单 ， 我 们 使 用 一 个 全 局 变量 scanLop 
记录 扫描 的 次 数 。 只 要 扫描 次 数 不 大 于 两 次 ， 便 一 直 调 用 program 递 归 
下 降 子 程序 重复 进行 语法 分 析 。 





每 一 所 语法 分 析 过 程 中 ， 都 会 调用 addlb 添 加 符号 到 符号 表 。 为 了 
避免 添加 重复 的 符号 ， 因 此 需要 对 其 实现 进行 特殊 处 理 。 





1 void Table::addlb 


(lb_record* p_1b) { // 添 加 符号 

2 if(scanLop != 1) { / /只 在 第 一 遍 添 加 新 符号 
3 delete p_]1b 

4 return 

5 

6 if(hasName(p_1b->lbName)) { / /本 地 符号 覆盖 外 部 符号 


7 delete lb _map[p_1b->lbName]; 
8 lb_map[p_1b->lbName]=p_1b; 

9 } else { 

10 lb_map[p_1b->lbName]=p_1b; 


} 
12 if(p_l1b->times!=0&&p_1b->segName==".data") { 
13 defLbs.push_back(p_1b); / /记录 包含 数据 的 符号 





在 函数 addlb 中 ， 我 们 只 需要 在 第 一 次 扫描 时 问 符号 表 内 添加 符 写 
即 可 ， 如 果 scanLop 不 等 于 1 则 立即 返回 。 如 宋 在 添加 符号 时 发 现 该 符号 
己 经 存在 于 符 写 表 ， 则 断定 符号 表 内 保存 的 必然 是 由 getlb 添 加 的 外 部 符 
写 〈getlb 函 数 在 找 不 到 符 写 时 ， 会 自动 创建 一 个 外 部 符 写 添 加 到 符号 
表 ) ， 这 是 因为 我 们 编译 的 合法 汇编 程序 是 不 会 出 现 符号 重 定义 的 。 由 
于 被 添加 的 符号 一 定 是 本 地 定义 的 《externed 字 段 为 false) ， 所 以 直接 
将 该 符号 的 信息 更 新 到 符号 表 即 可 。 最 后 ， 我 们 将 数据 段 “data” 内 的 
times 不 为 0 (包含 数据 〉 的 符号 按 序 记录 到 defLbs 中 ， 以 供 后 续 生 成 数 
据 段 内 容 时 使 用 。 





3. 获 取 符 写 对 象 


获取 符号 对 象 的 方法 getlb 的 实现 与 addlb 是 相关 的 。 





1 1b_record * Table::getlb 


(string name) { 
2 lb_record* ret; 
3 if(hasName(name)) { // 符 号 存在 


4 ret=lb_map[name]; 
5 } else { 


6 ret = new lb_record(name, true); / /创建 外 部 符号 


7 lb_map[name] = ret; / /添加 到 符号 表 
8 } 

9 return ret,; 

10 } 








在 函数 getib 中 ， 第 一 过 扫描 时 ， 如 果 符 号 存在 于 符号 表 ， 则 直接 返 
回 。 人 否则 将 创建 一 个 外 部 符号 添加 到 符号 表 内 ， 这 是 汇编 右 最 后 一 种 创 
建 符号 的 情况 。 当 第 二 壳 扫描 时 ， 无 论 是 什么 类 型 的 符号 ， 总 能 在 符号 
表 内 找到 。 而 且 我 们 可 以 确定 ， 对 于 先 引 用 后 定义 的 本 地 符号 ，addlb 
己 经 在 第 一 人 过 处 理 中 将 符号 表 内 的 记录 更 新 为 符号 的 真正 定义 。 











获取 符号 的 语义 动作 出 现 于 以 下 四 种 情况 : 
1) 形 如 : global x。 

2) 形 如 : ptr dd x。 

3) 形 如 : mov eax，xX。 

4) 形 如 : mov eax，[X]。 


第 一 种 情况 声明 x 为 全 局 符号 ， 此 时 需要 取出 x 的 符号 对 象 ， 将 isGlb 
设置 为 rue。 第 二 种 情况 表示 数据 定义 中 引用 了 符号 的 地 址 作为 数据 内 
容 ， 这 个 情况 已 经 在 “创建 符号 对 象 ” 章 市 的 type 弟 归 下 降 子 程序 中 搬 述 
了 。 后 面 两 种 情况 是 指令 使 用 符号 地 址 作为 立即 数 或 者 内 存 地 址 (如 果 








， 则 表示 其 对 应 的 值 〉， 其 调用 代码 会 在 “指令 生成 ” 午 市 


6.4 表 信 息 生 成 


汇编 嚣 最终 输出 ELF 格 式 的 可 重 定位 目标 文件 。 第 5 章 描 述 了 ELF 文 
件 的 通用 结构 ， 而 在 汇编 器 中 我 们 只 关心 可 重 定 位 目标 文件 涉及 的 ELF 
文件 结构 。 





5 
段 表 字 符 串 表 (. shstrtab ) 
(40* 段 表 项 个 数 ) 
(16* 符 号 表 项 个 数 ) 
字符 串 表 (. strtab ) 
lv 重 定位 表 硕 个 
l. 重 定位 表 硕 个 


图 6-6 ”可 重 定位 目标 文件 结构 





如 图 6-6 押 示 ， 在 可 重 定 位 目标 文件 中 ， 不 会 包含 程序 头 表 。 夯 外 
编译 絮 生 成 的 代码 不 包含 “.bss” 段 ， 因 此 只 需要 考虑 代码 段 和 数据 段 。 
其 中 ， 代 码 段 的 生成 在 指令 生成 革 市 再 详细 描述 ， 数 据 段 的 内 容 来 源 于 
符号 表 内 的 数据 定义 标签 。 另 外 ，ELF 文 件 涉 、 段 表 字 符 串 表 、 字 符 串 


表 在 ELF 文 件 结构 确定 后 可 以 计算 得 出 。 因 此 ， 在 可 重 定位 目标 文件 中 
最 关键 的 三 个 段 是 : 段 表 、 符 号 表 和 重 定位 表 ， 这 三 个 表 是 表 信 息 生 成 
的 主要 内 容 。 














汇编 器 在 第 一 抽 扫 摘 时 ， 将 汇编 文件 的 段 信息 导出 为 段 表 项 ， 填 充 
到 段 表 。 第 二 裔 扫描 时 ， 将 符号 信息 导出 为 符号 表 项 ， 填 充 到 符号 表 ， 
并 在 产生 重 定位 的 位 置 生成 重 定 位 项 ， 填 充 重 定位 表 。 











6.4.1 上段 表 信息 


汇编 语言 使 用 section 关 键 字 声 明 段 起 始 位 置 ， 下 一 个 段 声 明 或 文件 
结束 位 置 为 段 终 止 位 置 ， 中 间 部 分 属于 section 声 明 的 段 内 容 。 因 此 在 汇 
编 器 语法 分 析 过 程 中 ， 可 以 在 section 声 明 或 文件 结束 时 处 理 段 信息 。 





1 void Parser::program() 

2 1 

3 switch(look->tag){ 

4 case END: / /文件 结束 ， 停 

5 table. switchSeg 

(); 

6 return; 

7 case KW_SEC: // 段 声明 
match(ID); 

9 table. switchSeg 

(); 

10 break; 

11 case KW_GLB: / /全 局 符号 声明 

412 match(ID); 

13 break; 

14 case ID: / /数据 定义 

15 lbtail(); 

15 break ; 

16 default: // 指 令 

17 inst(); 

18 } 

19 program( ); 

20 } 


ee | 


函数 switchSeg 在 段 声 明 位置 和 文件 结束 位 置 处 理 段 信息 。ELEF 文 件 
段 表 项 中 最 关键 的 字段 是 段 名 、 段 基 址 和 段 大 小 。 由 于 汇编 语言 段 内 包 
舍 的 数据 定义 或 汇编 指令 的 大 小 是 可 以 确定 的 ， 因 此 通过 第 一 通 扫描 可 
以 确定 段 表 项 内 的 信息 。 其 中 ， 段 表 名 由 section 关 键 字 声明 的 标识 符 决 
定 ， 上 段 表 大 小 由 上 段 内 的 数据 大 小 决定 ， 有 段 表 的 偏 移 由 上 个 段 结束 位 置 的 
对 齐 位 置 雇 定 〈 默 认 情 况 下 ， 段 俩 移 的 默认 按照 4 字 节 大 小 对 齐 ) 。 
section .text ~~、 
mov eax,ebx < 
Eg “~~--y| .text 
section .data——---|-—-—--. 


buffer times 10 db 0 
EOF 


段 名 | 段 偏 
O 













移 | 段 大 小 
3 





10 





图 6-7 段 表 信息 生成 


如 图 6-7 所 示 ， 代 码 段 “text" 段 偏 移 默认 从 0 字 节 开始 ， 段 内 含有 两 
条 汇编 指令 ，mov 指 令 的 一 种 二 进 制 编码 为 0x8bc3《〈 人 参考 5.1 节 的 内 
容 ) ， 大 小 为 2? 字 节 ，inc 指 令 的 二 进 制 编码 为 0x40， 大 小 为 1 字 节 ， 
此 “.text”* 段 大 小 为 3 字 节 。 数 据 段 “.data” 段 偏 移 从 “.text” 结 束 位 置 3 字 节 开 
人 ， 按 照 4 字 节 对 齐 后 为 4 字 节 ,“.data” 段 内 定义 了 10 字 节 的 buffer,， 
此 “.data” 段 大 小 为 10 字 节 。 























1 int dataLen=0; 
2 string curSeg=""; 
3 void Table::switchSseg 


( 
4 if(scanLop==1) { 
5 dataLen+=(4-dataLen%4 )%4; 


6 obj.addSshdr(curSeg,1b_record: :curAddr ) ; 
7 dataLen+=1b_record: :curAddr; 

8 } 

9 curSeg=((Str*)look)->toString(); 

10 lb_record: :curAddr=0,; 

11 } 








在 图 数 switchSeg 中 ， 只 有 当 第 一 过 扫描 时 〈scanLop=1 时 ) ， 汇 编 
吉 才 会 计算 段 偶 移 和 大 小 ， 并 添加 段 信息 到 可 重 定位 目标 文件 的 段 表 
内 。 男 外 ， 全 局 变量 dataLen 记 录 了 上 一 个 段 的 结束 位 置 仿 移 。 每 次 调 
用 addShdr 添 加 段 表 项 前 ， 都 会 将 dataLen 按 照 4 字 节 对 齐 ， 然 后 将 
dataLen 昧 加 curAddr〈 每 个 段 扫 描 结 束 后 ， 该 变量 保存 了 段 的 大 小 ) 形 
成 新 的 段 结束 位 置 仿 移 。 最 后 ， 汇 编 占 将 下 一 个 段 名 curSeg 设 置 为 当前 
section 声 明 的 标识 符 名 称 ， 并 将 段 内 侦 移 地 址 curAddr 重 置 为 0 继续 处 理 


下 一 个 段 。 





妆 数 addShdr 的 功能 是 癌 目 标 文件 的 段 表 内 添加 一 个 段 表 项 。 为 了 
方便 对 ELF 进 行 操 作 ， 我 们 封闭 了 一 个 简单 的 ELF 文 件 类 。 





1 struct RelItem 


2 string segName; // 重 定位 的 目标 
3 Elf32_Rel*rel; // 重 定位 信息 
4 string relName; // 重 定位 符号 名 
5 }; 

6 

7 class Elf_ file 


8 public: 





9 Elf32_Ehdr ehdr,; / /文件 头 

10 Vector<E1Lf32_Phdr*>phdrTab ; / /程序 头 表 

11 hash_ map<string, Elf32_ Shdr*, string_hash> shdrTab; // 段 表 

12 vector<string>shdrNames; // 段 名 顺序 

13 hash_map<string,Elf32_Sym*,string_hash>symTab; / /符号 表 

14 vector<string>symNames; / /符号 名 顺序 

15 vector<RelItem*>relTab; // 重 定位 表 

16 string shstrtab / / 段 表 字符 串 表 
17 string strtab / /字符 串 表 














其 中 RelItem 类 是 对 重 定 位 表 项 的 简单 封装 ，ELF _file 表 示 整 个 ELF 
文件 ，EIlf32_* 表 示 所 有 ELF 文 件 结构 类 型 (定义 见 Linux 系 统 
的 “/usr/include/elf.h”* 文 件 ) 。addShdr 函 数 便 是 对 shdrTab 字 上 段 的 操作 。 





1 void ELf file::addShdr 


(string sh_name,int size) { 

2 int off=size of (Elf32._Ehdr)+dataLen; 
3 if(sh_name==".text") { 

4 addSshdr (sh_name, SHT_PROGBITS, 

5 SHF_ALLOC|SHF_EXECINSTR, 
6 0,off,size,0,0,4,0); 
7 
8 
9 
1 
1 


else if(sh name==".data") { 
addSshdr (sh_name, SHT_PROGBITS, 
SHF_ALLOC | SHF_WRITE, 


0 
1 0,off, size, 0,0,4,0); 


13 } 


15 void Elf_ file::addShdr 


16 string sh_name, 

17 Elf32_Word sh_type, 

18 Elf32_Word sh_flags, 

19 Elf32_Addr sh_addr, 

20 Elf32_0Off sh_offset, 

21 Elf32_Word sh_size, 

22 Elf32_Word sh_link, 

23 Elf32_Word sh_info, 

24 Elf32_Word sh_addralign, 
25 Elf32_Word sh_entsize 
26 ) { 

27 Elf32_Shdr*sh=new Elf32_Shdr(); 
28 sh->sh_name=0; 

29 sh->sh_type=sh_type; 

30 sh->sh_flags=sh_flags; 

31 sh->sh_addr=sh_addr; 

32 sh->sh_offset=sh_offset,; 

33 sh->sh_size=sh_size,; 

34 sh->sh_link=sh_link; 

35 sh->sh_info=sh_info,; 

36 sh->sh_addralign=sh_addralign,; 
37 sh->sh_entsize=sh_entsize; 

38 shdrTab[sh_name]=sh; 

39 shdrNames .push_back(sh_name); 
40 } 





第 1~13 行 定义 的 函数 addShdr 根 据 段 名 决定 段 表 项 其 他 属性 的 值 。 
比如 第 3~7 行 处 理 代码 段 “.text* 时 ， 将 段 属性 设置 为 SHT_PROGBITS 表 
示 该 段 保存 了 程序 数据 ， 设 置 为 SHF_ALLOC 表 示 段 加 载 时 需要 分 配 内 
存 空间 ， 设 置 为 SHF_EXECINSTR 表 示 该 段 具 有 可 执行 权限 。 











6.4.2 ”符号 表 信 息 


这 里 所 说 的 符号 表 是 ELF 文 件 的 符号 表 ， 而 非 6.3 节 所 描述 的 符号 表 
数据 结构 ， 不 过 这 二 者 之 间 是 有 关联 的 。 符 号 表 数 据 结构 记录 了 汇编 代 
码 中 所 有 的 符号 信息 ， 包 括 数 据 定 义 符 号 、 宏 符号 、 代 码 标签 、 函 数 名 

。 而 ELF 文 件 的 符号 表 保 存 的 符号 信息 是 为 链接 器 、 调 试 器 、 反 汇编 
器 等 服务 的 。 对 于 我 们 后 面 实现 的 链接 器 来 说 ， 其 实 只 需要 关心 全 局 符 
号 即 可 。 不 过 为 了 尽 可 能 保持 ELF 符 号 表 信息 的 完整 性 ， 我 们 也 将 局 部 
符号 保存 到 ELF 符 号 表 内 。 因 此 ， 可 以 简单 认为 ELF 文 件 的 符号 表 是 汇 

器 符号 表 的 一 个 子 集 ， 只 不 过 前 者 是 在 二 进 制 层面 描述 符号 ， 后 者 是 
在 汇编 语言 层面 描述 符号 
































由 于 汇编 器 在 第 二 避 扫 揪 时 已 经 将 符号 的 信息 全 部 收集 到 符号 表 
内 ， 因 此 我 们 只 需要 稍 加 处 理 ， 便 可 以 得 到 ELF 文 件 的 符号 表 。ELEF 文 
件 符 号 表 项 中 最 关键 的 字段 是 符号 名 、 符 号 所 在 段 、 符 号 段 内 俩 移 和 符 
类 型 (全 局 /局 部 )。 





如 图 6-8 所 示 ， 符 号 main 被 扫描 时 可 以 从 全 局 变量 curSeg 中 取出 当前 
段 的 名 称 “.text”， 从 lb_record: : curAddr 取 出 符号 在 段 内 的 偏 移 地 址 
0， 并 根据 global 声 明 将 main 符 号 设置 为 全 局 符号 。 而 对 于 符号 
whileExit1 是 在 第 二 遍 扫 描 开 始 时 才 确 定 是 本 地 符号 的 ， 它 在 “.text" 段 内 








的 偏 移 地 址 是 22。 男 外 ， 符 号 fun 古 引用 的 外 部 符号， 不 能 确定 它 所 在 
的 段 。 而 对 于 外 部 符 写 ， 我 们 统一 设 定 为 全 局 符 写 ， 这 是 因为 链接 器 会 
对 全 局 符号 进行 符号 解析 ， 而 忽略 局 部 符号 的 内 容 。 





section .text 
global main 





je whileExit1 







main Global 







call fun - -~- fun Global 
whileE xi+1 Local 

glb Global 

section.data Global 


global glb -一 
glb dd 100 


global var 
var dd1- 一 


图 6-8 ” 符 写 表 信 息 生 成 





1 void Table::exportSyms 


— 


for(hash map<string, lb_record*, string_hash> 
::iterator lb_i=]b_map.begin(); 
lb_i!=lb map.end();1lb_i++) { 

1b_record *1lr=1lb_i->second; 

if(!1lr->isEqu) 
obj.addSsym(1r); 


‘OO0NOPON ~ 


ww 





汇编 器 两 遍 扫描 结束 后 ， 会 调用 exportSyms 将 符号 导出 到 ELF 符 号 
表 。 由 于 安 符号 并 不 是 有 意义 的 符号 ， 因 此 不 会 被 导出 。addSym 函 数 








会 根据 符号 对 象 的 内 容 构造 ELF 符 号 表 项 Elf32_Sym， 添 加 到 符号 表 


SymTIab 。 





1 void EJf file::addSym 


(1Lb_record*1lb) { 


2 Elf32_Sym*sym=new Elf32_Sym(); 

3 sym->st_name=0,; 

4 sym->st_value=1b->addr; 

5 sym->st_size=lb->times*]lb->len*1b->cont.size(); 

6 if(l1b->gloabl) { 

7 sym->st_info=ELF32_ST_INFO(STB_GLOBAL, STT_NOTYPE); 
8 } else { 

9 sym->st_info=ELF32_ST_INFO(STB_LOCAL, STT_NOTYPE); 
10 } 

11 Sym. 

st_other=0; 

12 if(lb->externed) { 

13 sym->st_shndx=STN_UNDEF; 

14 } else { 

15 sym->st_shndx=getSegIndex(1b->segName); 

16 } 

17 symTab[1b->lbName ]=sym; 

18 symNames .push_back(1b->lbName); 

19 } 


// 符 


// 符 号 地 二 


/ /符号 大 小 


/7 外 





在 函数 addSym 中 ， 对 Elf32_Sym 对 象 的 设置 如 下 : 


Y 


第 3 行 ， 将 st_name 设 置 为 0， 这 是 因为 符号 表 依 赖 的 字符 串 





表 “.strtab” 还 未 添加 ， 只 有 在 组 装 可 重 定 位 目标 文件 时 才能 最 终 确定 
st_name 的 值 。 


第 4 行 ， 将 st_value 设 置 为 符号 地 址 addr， 即 符号 的 段 内 偏 移 地 址 ， 
对 于 外 部 符号 ， 该 值 默认 为 0。 


第 5 行 ， 计 算 符 号 大 小 st_size， 即 timnes、]len 与 符号 内 容 cont 长 度 的 
乘积 。 


第 6~10 行 ， 处 理 符 号 的 全 局 /局 部 类 型 。 我 们 并 不 关心 st_info 的 
TYPE 字 段 ， 因 此 默认 设置 为 STT_NOTYPE。 对 于 全 局 符号 ，st_info 的 
BIND 字 段 值 为 STB_GLOBAL， 对 于 局 部 符号 ，st_info 的 BIND 字 段 值 为 
STB_LOCAL。 最 后 ， 使 用 ELF32_ST_INFO 宏 将 TYPE 与 BIND 字 段 合并 
为 st_info 的 最 终 值 。 





第 12~16 行 处 理 外 部 /本 地 符号 。 对 于 外 部 符号 ， 符 号 所 在 段 对 应 段 
表 项 的 索引 st_shndx 是 不 确定 的 ， 因 此 设置 为 STN_UNDEF。 而 对 于 本 
地 符号 ， 则 取出 符号 所 在 段 名 segName， 并 使 用 getSegIndex 函 数 获取 该 
段 名 在 段 名 列表 segNames 中 的 索引 ， 设 置 为 st_shndx 的 值 。 





最 后 ， 将 符号 保存 到 符号 表 symTab， 并 将 符号 名 插入 符号 名 列表 


symNames。 





6.4.3 ” 重 定 位 表 信 息 





目标 文件 的 重 定位 表 是 汇编 器 与 链接 颖 关系 中 最 重要 的 一 坏 ， 链 接 
虱 正 是 读 取 目 标 文件 的 重 定位 表 信息 对 目标 文件 进行 链接 的 工作 。 前 面 
在 介绍 目标 文件 符号 表 生 成 的 时 候 ， 每 个 符号 表 项 存储 的 符号 的 值 都 是 
和 从 写 在 所 在 段 内 的 偏 移 地 址 ， 而 非 真实 的 虚拟 地 址 ， 而 链接 器 会 将 这 些 
偏 移 地 址 转换 为 虚拟 地 址 。 目 标 文件 的 符号 地 址 不 是 真实 虚拟 地 址 将 会 
市 来 一 个 问题 ， 那 些 引 用 该 符号 的 数据 定义 或 指令 的 内 容 并 不 是 有 效 
的 。 正 因 如 此 ， 汇 编 右 需要 将 这 些 信息 收集 到 重 定位 表 中 ， 告 诉 链接 顺 
哪些 数据 或 指令 需要 按照 怎样 的 方式 进行 修正 。 














前 面 介 绍 过 汇编 语言 内 的 符号 大 致 分 为 数据 、 标 签 、 宏 以 及 外 部 符 
号 四 大 类 ， 而 本 质 上 讲 ， 汇 编 语 言 的 符号 其 实 束 两 种 ， 即 表示 数据 地 址 
的 符号 和 表示 指令 地 址 的 符号 ， 宏 符号 不 会 出 现在 目标 文件 内 ， 而 外 部 
符号 无 外 乎 数据 和 标签 两 种 符号 。 对 于 符号 的 引用 者 来 说 ， 存 在 两 种 场 
景 : 本 地 引用 ， 即 引用 符号 的 位 置 和 符号 定义 位 置 在 同一 个 文件 的 同一 
段 内 ; 外 部 引用 ， 即 引用 符号 的 位 置 和 符号 定义 位 置 不 在 同一 文件 内 或 
在 同一 文件 的 不 同 段 内 。 之 所 以 强调 是 合同 一 段 内 而 非 同一 文件 内 ， 是 
因为 链接 器 工作 时 会 调整 所 有 段 的 位 置 ， 而 不 管 这 些 段 是 否 在 同一 个 文 
件 内 。 








在 汇编 代码 中 所 有 出 现 的 对 数据 和 标签 符号 的 引用 都 有 可 能 需要 进 
行 重 定 位 ， 根 据 符 写 类 型 和 引用 场景 可 以 分 为 四 种 情况 进行 考虑 : 














1) 本 地 引用 数据 符号 : 这 种 情况 常见 的 场景 是 全 局 变量 定 
义 “char*str="hello"; ”生成 的 汇编 代码 。 


@LO db "hello" 
str dd @LO 


里 然 从 号 “@L0” 和 “str” 在 同一 个 “.data” 段 内 ， 但 是 “str” 存 储 的 
是 “@L0” 的 偏 移 地 址 ， 链 接 器 处 理 后 ,，“@L0” 的 地 址 被 修正 为 虚拟 地 
址 ， 而 “str* 和 存储 的 数据 内 容 也 需要 改变 为 “<@L0” 对 应 的 虚拟 地 址 ， 
此 “str”* 的 数据 内 容 需 要 被 重 定 位 。 














2) 外 部 引用 数据 符号 : 这 种 情况 第 见 的 场景 是 对 全 局 变量 的 访 
问 ， 比 如 “x=1; ”生成 的 汇编 代码 。 


mov [x], 1 


与 情况 1 类 似 ， 链 接 器 处 理 后 ,，“x” 的 地 址 被 修正 为 虚拟 地 址 ， 那 么 
mov 指 令 内 保存 的 x 的 地 址 需要 更 正 为 对 应 的 虚拟 地 址 ， 因 此 “mov” 指 令 
的 内 容 需要 重 定 位 。 不 管 x 是 否 是 本 地 文件 的 全 局 变量 还 是 通 
过 “extern” 声 明 的 外 部 变量 ， 都 需要 这 样 的 处 理 。 














3) 本 地 引用 标签 符号 : 这 种 情况 常见 的 场景 是 调用 本 地 声明 的 函 


数 ， 比 如 “fun() ; ”生成 的 汇编 代码 。 


call fun 





我 们 知道 ，“call* 指 令 的 内 容 保 存 的 是 被 调用 函数 的 地 址 相对 
于 “call* 指 令 的 下 一 条 指令 的 地 址 的 偏 移 ， 假 设 “fun” 的 定义 就 在 “call* 指 
令 之 后 ， 那 么 “call* 指 令 内 保存 的 相对 地 址 就 是 0。 链 接 嚣 处理 
后 ，“fun” 的 地 址 被 修正 为 虚拟 地 址 。 然 而 “call”* 指 令 和 “fun” 符 号 定义 都 
是 在 “.text”" 段 内 ， 无 论 链 接 器 如 何 调整 “.text* 的 位 置 ，“call”* 指 令 
和 “fun” 的 符号 地 址 的 相对 位 置 都 不 会 发 生 改变 ， 即 “call* 指 令 的 内 容 不 
会 发 生变 化 ， 也 就 无 须 对 “call” 指 令 进 行 重 定位 。 类 似 的 情况 还 会 发 生 
在 函数 内 部 复合 语句 生成 的 跳 转 指令 jmp/Jcc 指 令 中 ， 这 些 指令 也 是 不 需 


要 重 定 位 的 。 








4) 外 部 引用 标签 符号 : 这 种 情况 常见 的 场景 是 调用 外 部 文件 声明 
的 函数 ， 还 是 “fun () ; ”生成 的 汇编 代码 。 





call fun 











只 不 过 这 次 “fun” 符 号 是 未 知 符号 ， 虽 然 我 们 可 以 推测 该 符号 也 是 
在 “text" 段 内 ， 但 是 它 并 不 是 本 地 的 “text" 段 。 链 接 器 处 理 时 会 把 同名 
的 段 进 行 合 并 ， 但 是 即便 如 此 ， 我 们 也 无 法 计算 “call* 指 令 与 “fun” 符 写 
地 址 的 相对 位 置 。 因 此 ， 链 接 器 处 理 后 ，“call* 指 令 内 的 相对 地 址 需要 


根据 “fun” 的 虚拟 地 址 重新 定位 。 


根据 以 上 分 析 ， 我 们 可 以 得 出 结论 : 凡是 对 数据 符号 的 引用 都 需要 
重 定位 ， 而 对 标签 符号 的 引用 ， 只 有 外 部 引用 时 才 需 要 重 定位 。 





1 void Parser: :type 


(list<int>& cont, int len) { 

2 move( ) ; 

3 switch(look->tag) { 

4 case NUM: 

5 cont.push_back(((Num*)look)->val) 

6 break; 

7 case STR: 

8 for(int i=0; i < ((Str*)look)->str.size(); i++) { 
9 cont.push_back(((Str*)look)->str[i]) 

10 } 

11 break; 

12 case ID: 

13 if(scanLop==2 && !lr->isEqu) { 

14 obj.addRel 

( 

15 curSeg,1b_record: :curAddr+cont ,Size()*]len， 
16 name, R_386_32); 

17 } 

18 cont.push_back(table.getlb(((Str*)look)->str)->addr); 
19 break; 

20 default: 

21 

22 } 





地 归 下 降 子 程序 type 处 理 数据 符号 的 值 ， 当 它 扫描 到 数据 符 写 的 值 
是 ID 时 ， 如 果 当 前 是 汇编 器 的 第 二 遍 扫描 ， 且 扫描 到 的 符号 不 是 宏 符 
号 ， 便 调用 addRel 将 生成 的 重 定位 项 添加 到 重 定位 表 。 判 断 是 否 是 第 二 
避 扫 摘 是 保证 所 有 的 符号 信息 已 经 保存 到 汇编 强人 符号 表 内 ， 而 判断 是 否 
是 宏 符 写 则 是 宏 符号 的 值 会 被 直接 写 入 数据 符号 的 内 容 ， 不 存在 对 符号 
的 引用 ， 因 而 不 需要 重 定位 。 




















处 理 完 数 据 段 内 符号 引用 情况 ， 接 下 来 处 理 代 码 段 内 的 符号 引用 。 
我 们 定义 的 汇编 语言 的 代码 段 内 对 符号 的 引用 有 两 种 情况 ， 即 将 符号 的 
值 作为 立即 数 或 内 存 地 址 。 下 面 分 别 讨论 这 两 种 情况 。 





1 int Parser::getRegCode 


(Tag reg, int len) { 

2 int code = 0; 

3 Switch (len) { 

4 case 4: 

5 code = reg - BR_AL; 
6 break 

7 case 8: 

8 code = reg -DR_EAX; 
9 break; 

10 

11 return code,; 

12 } 

13 


14 lb_record*relLb 


=NULL ， / / 重 定位 的 标签 


15 
16 void Parser::oprand 


(int &regNum,int&type,int&len) { 


17 move(); 

18 switch(look->tag) { 

19 case NUM: / /立即 数 
20 type=IMMEDIATE.; 

21 instr.imm32=( (Num* )look)->val; 

22 break; 

23 case ID: / /立即 数 
24 type=IMMEDIATE.; 

25 string name=( (Id*)look)->name; 

26 lb_record* lr=table.getlb(name); 

27 instr.imm32=1r->addr,; 

28 if(scanLop==2 && !1lr->isEqu) { 

29 relLb=1r; 

30 } 

31 break; 


32 case LBRAC: / /内存 寻 址 


33 type=MEMORY ; 


34 mem( ); 

35 break; 

36 case SUB: // 负 立即 数 
37 type=IMMEDIATE.; 

38 match(NUM); 

39 instr.imm32=-((Num*)look)->val; 

40 break; 

41 default: / /寄存 器 操作 
42 type=REGISTER; 

43 len=reg(); 

44 int regCode = getRegCode(look->tag, len); / /寄存 器 编码 
45 if(regNum++!=0) { // 双 寄存 器 操 
46 modrm.mod=3; 

47 modrm.rm=regCode; // 源 寄存 器 存 
rm 

48 } else { 

49 modrm.reg=regCode; / /目标 寄存 器 : 
reg 

50 } 

51 } 

52 } 





递归 下 降 子 程序 operand 处 理 汇编 指令 的 操作 数 ， 参 数 regNum 记 录 
指令 中 已经 识别 的 寄存 器 操作 数 的 个 数 ，type 记 录 操 作 数 的 类 型 (立即 
数 操作 数 一 IMMEDIATE、 寄 存 器 操作 数 一 REGISTER、 内 存 操作 数 一 
MEMORY ) ，len 记 录 操 作 数 的 长 度 〈8 位 或 32 位 ) 。 


1) 第 19~22 行 处 理 数 字 常 量 立 即 数 操作 数 。 首 先 将 操作 数 类 型 设 为 
IMMEDIATE， 然 后 取出 数字 常量 的 值 存 入 指令 的 imm32 字 上段。 


2) 第 23~31 行 处 理 符号 立即 数 操作 数 。 首 移 将 操作 数 类 型 设 为 
IMMEDIATE， 人 然后 根据 符号 名 从 符号 表 中 取出 符号 对 象 ， 将 符号 地 址 
写 入 指令 的 imm32 字 段 。 由 于 该 处 是 对 符号 的 引用 ， 因 此 需要 产生 重 定 
位 项 。 我 们 将 符号 对 象 记 录 到 全 局 变量 relLb 中 ， 指 令 生成 阶段 会 读 取 该 
变量 的 值 ， 进 行 重 定 位 项 的 处 理 。 





3) 第 32~35 行 处 理 内 存 操作 数 。 首 先 将 操作 数 类 型 设 为 
MEMORY， 然 后 调用 mem 子 程序 处 理 内 存 操作 数 的 情况 。 


4) 第 36~40 行 处 理 负数 立即 操作 数 。 


5) 第 41~50 行 处 理 寄存 器 操作 数 。 首 先 将 操作 数 类 型 设置 为 
REGISTER， 然 后 调用 getRegCode 计 算 寄 存 器 在 指令 中 的 编码 。 当 第 一 
次 识别 到 寄存 器 操作 数 时 ， 将 寄存 器 编码 记录 到 指令 的 reg 字 段 内 。 第 
二 次 识别 到 寄存 器 操作 数 时 ， 将 指令 的 mod 字 段 设 为 3 表示 指令 是 双 寄 
存 器 操作 数 指令 ， 将 指令 的 rm 字段 设置 为 第 二 次 识别 寄存 器 的 编码 。 之 
所 以 这 样 设置 ， 是 因为 我 们 在 指令 生成 时 使 用 的 双 寄 存 器 操作 数 指令 的 
形式 为 reg 字 段 作为 目标 寄存 器 ，rm 字 段 作 为 源 寄存 器 。 














1 void Parser::addr 


( 

2 move( );，; 

3 switch(token) { 

4 case number: / /直接 寻 
5 modrm.mod=0; 


6 modrm.rm=5; 


7 instr.setDisp((Num*)look)->val, 4); 

8 break; 

9 case ident: / /直接 寻 
10 modrm.mod=0; 

11 modrm.rm=5; 

12 name=( (Id* )1oo0k)- ->name ; 

13 lb_record* lr=table. get1b(name); 

14 instr.setDisp(1lr->addr, 4); 

15 if(scanLop==2 && !]r- ->isEqu) { 

16 relLb=1r; 

17 } 

18 break; 

19 default: / /寄存 串 
20 int type=reg(); 

21 regaddr (token, type); 

22 

23 } 





递归 下 降 子 程序 addr 处 理 内 存 操作 数 的 内 存 地 址 。 


1) 第 4~8 行 处 理 数 字 常 量 的 内 存 地 址 。 首 先 将 指令 的 mod 字 段 设 为 
0，rm 字 上 段 设 为 5， 表 示 操 作 数 使 用 32 位 偏 移 直 接 寻 址 。 调 用 指令 的 
setDisp 函 数 保存 内 存 地 址 的 值 和 长 度 。 








2) 第 9~18 行 处 理 符号 内 存 地 址 。 与 数字 常量 内 存 地 址 处 理 方式 类 
似 ， 仍 是 设置 指令 的 mod 字 段 为 0，rm 字 段 为 5。 然 后 根据 符号 名 从 符号 
表 内 取出 符号 对 象 ， 将 符号 对 象 的 地 址 和 地 址 长 度 设置 为 指令 内 。 由 于 
该 处 是 对 符号 的 引用 ， 因 此 需要 产生 重 定位 项 。 我 们 将 符号 对 象 记录 到 
全 局 变量 relLb 中 ， 指 令 生 成 阶段 会 读 取 该 变量 的 值 ， 进 行 重 定位 项 的 处 
理 。 





3) 第 19~21 行 处 理 寄存 器 寻 址 的 情况 。 





1 bool Generator::processRel 


(int type) { 

2 if(scanLop==1| |relLb==NULL) { 

3 relLb=NULL; 

4 return false; 

5 } 

6 bool flag=false; 

7 if(type==R_386_32 

) { / /绝对 地 址 重 定位 
8 obj.addRel 


(curSeg,1b_record: :curAddr, 
9 relLb->lbName, type); 


10 flag=true,; 

11 

12 else if(type==R_386_PC32 

) { / /相对 地 址 重 定位 

13 if(relLb->externed) { / /外 部 跳 转 
14 obj.addRel 


(curSeg,1b_record: :curAddr, 
15 relLb->lbName, type); 
16 flag=true; 


} 
19 relLb=NULL; 
20 return flag; 





在 指令 生成 阶段 ， 会 调用 processRel 处 理 可 能 的 重 定位 项 。 参 数 type 
表示 调用 者 传 入 的 重 定位 类 型 ， 对 于 一 般 的 直接 引用 符号 地 址 的 指令 会 
传 入 R_386_32 表 示 绝 对 地 址 重 定 位 ， 而 对 于 函数 调用 或 者 跳 转 指令 会 传 
入 R_386_PC32 表 示 相 对 地 址 重 定位 。 


1) 第 2~5 行 表示 只 在 第 二 过 扫描 时 进行 重 定位 项 的 生成 ， 并 且 要 求 
relLb 不 能 为 空 。relLb 记 录 了 指令 中 需要 重 定 位 的 符号 对 象 ， 由 于 我 们 
的 编译 器 不 会 生成 引用 多 个 符号 的 指令 ， 因 此 使 用 一 个 relLb 变 量 记录 是 
一 种 简化 的 做 法 。 


2) 第 6~11 行 处 理 绝 对 地 址 重 定 位 。 通 过 调用 addRel 函 数 ， 将 当前 
段 名 (被 重 定位 的 段 )、 当 前 地 址 (被 重 定位 位 置 的 段 内 偏 移 ) 、 重 定 
位 符号 名 《〈 重 定位 的 符号 ) 和 重 定 位 类 型 传 入 ， 生 成 对 应 的 重 定位 表 


项 。 





3) 第 12~18 行 处 理 相 对 地 址 重 定位 。 首 先 判 断 符号 relLb 是 否 是 外 
部 符号 ， 对 于 本 地 符号 则 不 需要 生成 重 定位 项 。 因 为 如 果 符 号 是 数据 段 
内 的 符号 ， 我 们 处 理 的 汇编 代码 不 包含 对 数据 段 内 符号 的 相对 地 址 引 
用 。 如 果 符 号 是 代码 段 内 的 符号 ， 则 表示 符号 和 符号 的 引用 位 置 在 同一 
个 段 内 ， 根 据 前 面 对 符 号 引用 的 讨论 ， 不 需要 生成 重 定位 项 。 最 后 ， 仍 
调用 addRel 函 数 生 成 重 定位 项 。 























1 RelItem* Elf_file::addRel 


(string seg, 

2 int addr,string 1b,int type) { 

3 RelItem*rel=new RelItem(seg,addr,1b,type); 
4 relTab.push_back(rel); 

5 return rel; 

6 } 





函数 addRel 的 实现 很 简单 ， 即 根据 传 入 的 重 定位 段 、 重 定位 地 址 、 





重 定位 符号 和 重 定位 类 型 信息 生成 重 定位 项 对 象 RelItem， 然 后 存 入 重 


定位 表 relTab 即 可 。 其 中 RelItem 的 rel 字 段 为 Elf32-Rel 类 型 ， 该 类 型 的 r- 





offset 设 为 addr 的 值 ，rinfo 字 段 设 为 ELF32-R-INFO (OO，type) ， 即 只 
保存 重 定位 类 型 信息 。 在 目标 文件 生成 阶段 会 自动 填充 rinfo 字 段 中 的 
重 定位 符号 信息 ， 再 将 该 对 象 的 信息 输出 为 ELF 文 件 格式 的 重 定位 段 的 
内 容 。 之 所 以 这 样 做 的 原因 是 重 定位 项 内 涉及 了 有 段 名 和 符号 名 的 引用 ， 
只 有 段 表 和 符号 表 生 成 后 才能 确定 这 些 字 段 在 重 定位 表 内 的 值 。 




















为 了 更 好 地 理解 重 定位 表 生 成 的 流程 ， 我 们 使 用 一 个 简单 的 例子 说 
明 这 一 点 ， 如 图 6-9 所 示 。 





section .text section .+ex+ 


je whileExi+1 
call fun 
whileExit+t1: 


section .data 
glb dd 100 
var dd 1 





图 6-9 重 定位 表 信 息 生成 





为 了 简化 代码 结构 ， 我 们 省 略 了 全 局 符号 的 global 声 明 指令 。 图 6-9 
中 展示 了 前 面 讨论 的 重 定位 信息 的 来 源 。 





1) 同文 件 段 间 符 写 引 用 最 典型 的 是 文件 内 代码 段 的 指令 引用 了 文 


件 内 数据 段 的 符号 ， 比 如 a.s 的 代码 段 的 mov[var]，eax 指 令 引 用 了 a.s 的 
数据 段 内 符号 var。 汇 编 器 处 理 该 指令 时 ，var 符 号 地 址 的 段 内 偏 移 是 
30 mov 指令 操作 码 0x88 占 用 1 字 节 ，ModR/M 字 段 0x05 占 用 1 字 节 ) ， 
于 是 根据 重 定位 段 “.text*"、 重 定位 位 置 30、 重 定位 符号 “var* 和 重 定位 类 
型 生成 重 定位 项 。 数 据 段 内 的 符号 引用 情形 类 似 ， 不 再 袭 述 。 





2) 一 个 文件 的 代码 段 的 指令 引用 了 另 一 个 文件 数据 段 的 符号 ， 比 
如 文件 a.s 代 码 段 的 mov eax，[ext] 指 令 引用 了 文件 b.s 数 据 段 定义 的 全 局 
符号 ext。 汇 编 器 处 理 该 指令 时 ，ext 符 号 地 址 的 段 内 偏 移 是 24 (mov 指 
令 操作 码 0x8a 占 用 1 字 节 ，ModR/M 字 段 0x05 占 用 1 字 节 ) ， 于 是 根据 重 
定位 段 “.text*"、 重 定位 位 置 24、 重 定位 符号 “ext” 和 重 定位 类 型 生成 重 定 


位 项 。 





3) 一 个 文件 的 代码 段 的 指令 引用 了 男 一 个 文件 代码 段 的 符 写 ， 比 
如 文件 a.s 代 码 段 的 call fun 引 用 了 文件 b.s 代 码 段 定 义 的 全 局 符 写 fun。 汇 
编 器 处 理 该 指令 时 ，fun 符 号 相对 地 址 的 段 内 偏 移 是 18 (call 指 令 操 作 码 
0xe8 占 用 1 字 节 )〉 ， 于 是 根据 重 定 位 段 “.text"、 重 定位 位 置 18、 重 定位 符 
号 “fun” 和 重 定位 类 型 生成 重 定 位 项 。 











4) 最 后 ， 同 文件 段 内 符号 相对 引用 不 会 产生 重 定位 项 ， 比 如 je 
whileExit1 对 whileExit1 局 部 符号 的 引用 ， 因 为 je 指令 和 whileExit1 的 相对 
地 址 永远 是 固定 的 5 字 节 。 








经 过 前 面 的 讨论 ， 我 们 明确 了 ELE 文 件 内 最 关键 的 三 个 表 数 据 结构 
段 表 、 符 号 表 、 重 定位 表 的 构造 方式 。 根 据 这 三 个 表 结 构 ， 我 们 可 以 构 
造 出 ELF 可 重 定位 目标 文件 的 “骨架 ”。 不 过 在 汇编 器 中 ， 除 了 构造 目标 
文件 的 结构 信息 ， 还 有 一 个 重要 的 功能 尚未 讨论 ， 即 根据 第 5 章 对 x86 指 
令 结构 的 描述 将 汇编 代码 翻译 为 二 进 制 代 码 ， 这 便 是 “指令 生成 ?章节 需 


要 讨论 的 内 容 。 





6.5 ”指令 生成 


在 “语法 分 析 ? 章 节 中 ， 我 们 描述 了 汇编 语言 指令 的 文法 。 我 们 将 待 
处 理 的 汇编 指令 分 为 三 类 : 双 操 作 数 指令 、 单 操作 数 指令 和 零 操作 数 指 
令 。 其 中 双 操 作 指令 包含 mov、cmp、add、sub、and、or 和 lea 共 7 种 指 
令 ， 单 操作 数 指令 包含 call、int、imul、idiv、neg、inc、dec、jmp、 
je、jne、sete、setne、setg、setge、setl、setle、push 和 pop 共 18 种 指令 
无 操作 数 指令 包含 ret 共 1 种 指令 。 指 令 生 成 的 目的 便 是 将 这 些 指令 翻译 
为 它们 的 二 进 制 表示 。 





汇编 器 语法 分 析 器 的 inst 递 归 下 降 子 程序 识别 所 有 的 指令 ， 然 后 将 
指令 的 信息 记录 下 来 ， 最 后 将 指令 的 信息 交 给 指令 生成 器 转化 为 二 进 制 
代码 。 











1 enum op_type 


€ / /操作 数 类 型 
2 了 
3 IMMEDIATE, 
4 REGISTER, 
5 MEMORY 
6 } 
7 
8 void Parser::inst 


() { 
9 


instr.init 


(); / /初始 化 指令 信息 


11 int len=0; / /操作 


12 if(look->tag>=I_MOV 


&&1look->tag<=I_LEA 


) { // 双 操作 数 指令 

13 op_type d_type=NONE,s_type=NONE; / /操作 
14 int regNum=0; / /寄存 
15 oprand(regNum,d_type,1en); 

16 match(COMMA); 

17 oprand(regNum,s_type, len); 

18 generator .gen2op 


(look->tag,d_type,s_type, len); 
19 }else if(look->tag>=I_CALL 


&&10o0k->tag<=I_POP 


){。 // 单 操作 数 指令 





20 op_type type=NONE,regNum=0; 
21 oprand(regNum, type len); 
22 generator .geniop 


(look->tag, type, len); 


23 }else if(look->tag==I_RET 
) { // 零 操作 数 指令 
24 generator .gen0op 


(look->tag); 
25 } 
26 } 


| 


1) 第 9 行 对 指令 对 象 instr 初 始 化 ， 其 中 比较 关键 的 是 将 modrm 的 
mod 和 和 sib 的 scale 字 上段 初 始 化 为 -1， 表 示 未 初始 化 状态 。 





2) 第 12~18 行 处 理 双 操 作 数 指令 。 根 据 词 法 记号 标签 的 定义 ， 在 
I MOV 和 I_LEA 之 间 的 标签 之 间 的 都 是 双 操 作 数 指令 。 当 子 程序 operand 
识别 指令 的 两 个 操作 数 后 ， 会 将 操作 数 的 信息 保存 在 instr、modrm 和 sib 
字段 内 。 最 后 调用 指令 的 gen2op 函 数 生成 双 操作 数 指令 的 二 进 制 代 码 。 





3) 第 19~22 行 处 理 单 操作 数 指令 。 根 据 词法 记号 标签 的 定义 ， 在 
LCALL 和 LI POP 之 间 的 标签 之 间 的 都 是 单 操 作 数 指令 。 当 子 程序 
operand 识 别 指令 的 唯一 的 操作 数 后 ， 会 将 操作 数 的 信息 保存 在 instr、 
modrm 和 sib 字 段 内 。 最 后 调用 指令 的 genlop 函 数 生 成 单 操 作 数 指令 的 二 
进 制 代码 。 


4) 第 23~25 行 处 理 零 操作 数 指令 。L_RET 是 唯一 的 零 操 作 数 指令 ， 
通过 调用 gen0op 函 数 生成 和 零 操作 数 指令 的 二 进 制 代码 。 


接 下 来 ， 我 们 详细 描述 指令 生成 右 对 每 种 指令 的 处 理 细 节 。 


6.5.1 双 操 作 数 指令 


在 我 们 实现 的 汇编 器 中 ， 只 需要 处 理 mov、cmp、add、sub、and、 
or 和 lea 这 7 种 双 操 作 数 指令 即 可 。 这 些 指 令 有 很 大 的 相似 之 处 ， 除 了 lea 
指令 稍微 特殊 外 ， 其 他 指令 的 操作 数 几乎 可 以 是 任何 类 型 的 合法 操作 
数 ， 即 目的 操作 数 可 以 是 寄存 器 操作 数 、 内 存 操作 数 ， 源 操作 数 可 以 是 
立即 数 、 寄 存 器 操作 数 和 内 存 操作 数 。 另 外 ， 考 虑 到 指令 的 操作 数 的 长 
度 可 以 是 8 位 或 32 位 〈 不 考虑 16 位 操作 数 ) ， 因 此 每 种 双 操 作 数 指令 都 
有 很 多 的 组 合 。 不 过 我 们 只 考虑 以 下 操作 数 的 组 合 〈 我 们 使 用 OP 表示 
任意 的 操作 码 ) 。 





1)OP reg8, reg8 
2)0P reg8, mem8 
3)0P mem8, reg8 
4)OP reg8, imm8 
5)OP reg32, reg32 
6)0P reg32, mem32 
7)OP mem32, reg32 
8)OP reg32, imm32 





其 中 组 合 1、2 我 们 统一 使 用 指令 “OP rm8，reg8” 生 成 ， 组 合 5、6 统 
一 使 用 指令 “OP rm32，reg32" 生 成 。 最 后 ， 对 于 包含 立即 数 的 指令 4、 
8， 我 们 只 处 理 目 的 操作 数 是 寄存 器 的 情况 ， 而 不 考虑 目的 操作 数 是 内 
存 的 情况 。 


使 用 一 个 操作 码 表 可 以 方便 我 们 在 代码 上 的 处 理 。 





1 static inti 2opcode 


[][2][4]={ 
2 // 


8 位 操作 数 

| 32 位 操作 数 
3 /rr rrmlrmnr rjimm| rr rrmlrnr rr mm 
4 {{0x8a,QOx8a,Ox88,0xb0}, {0x8b, Ox8b, Ox89, Oxb8}}, //mov 
5 {{0x3a,0Ox3a,0Ox38,0x80}, {0x3b, Ox3b, Ox39, Ox81}}, //cmp 
6 {{0x2a,0x2a,0Ox28,0x80}, {0x2b, Ox2b,0Ox29,0x81}}, //sub 
7 {{0x02,0x02,0x00,0x80}, {0x03, Ox03,0x01,0x81}}, //add 
8 {{0x22,0x22,0x20,0x80}, {0x23,0x23,0x21,0x81}}, //and 
9 {{0x0a,Ox0a,Ox08,0x80}, {0xOb, OxOb, Ox09, 0x81}}, //or 
10 {{0x00, Ox00, Ox00, Ox00}, {0x8d, Ox8d, Ox00, Ox00}} //lea 
11 }; 


13 int Generator::getOpCode 


(Tag tag, op_type des t, 


14 op_type src_t, int len) { 

15 { 

16 int index = 0; 

17 switch (src_t) { 

18 case IMMEDIATE: index = 3; break; 

19 case REGISTER: index = 2*(des-t!=REGISTER; breatk,; 
20 case MEMORY: index = 1; break; 

21 } 

22 return i 2o0pcode[tag-I_ MOV][len!=8][index]; 

23 } 





1) 第 1~11 行 定义 的 数组 i_2opcode 记 录 了 我 们 需要 处 理 的 双 操 作 数 
指令 操作 数组 合 对 应 的 操作 码 。 数 组 的 每 一 行 表 示 一 种 指令 对 应 的 操作 
码 ， 每 一 行内 的 第 一 个 子 数组 表示 8 位 操作 数 指令 的 操作 码 ， 第 二 个 子 
数组 表示 32 位 操作 数 的 操作 码 。 每 个 子 数组 都 是 一 个 四 元 组 ， 分 别 表示 
双 寄 存 右 操 作 数 、 寄 存 右 -内 存 操 作 数 、 内 存 -寄存 占 操 作 数 、 寄 存 器 -了 
即 数 操作 数 对 应 的 操作 码 。 


) 函数 getOpCode 根 据 操作 码 和 操作 数 类 型 以 及 长 度 计算 操作 人 码 的 
二 进 制 表示 。 对 比 汇编 器 Tag 内 对 标签 定义 的 顺 友 不 难 理解 操作 码 的 计 


算 方 式 。 


对 双 操 作 数 指令 的 处 理 流程 为 : 





1 void Generator::gen2op 


(Tag tag, op_type des_t， 
2 op_type src_t, int len) { 


3 int opcode=getOpCode 

(tag, des_t, src_t, len); 

4 switch(modrm.mod) { 

5 case -1: { / 
6 if(tag == I_MOV) { //mov 
7 opcode += modrm.reg,; 

8 } else { //C 
9 int reg_ codes[]={7, 5, 0, 4, 1}; / /操作 码 补 充 字段 

10 modrm.mod=3; 

11 modrm.rm=modrm.reg; 

12 modrm.reg=reg_codes[tag-I_CMP]; 

13 } 

14 

15 writeBytes(opcode, 1); / /操作 码 

16 if(tag!=I_MOV) writeModRM( ) ; //modrm 
17 processRel 

(R_386_32); // 重 定位 

18 writeBytes(instr.imm32, len); // 立 即 数 

19 break; 

20 } 

21 case 0: 

22 writeBytes(opcode,1); 

23 writeModRM( ) ; 

24 if(modrm.rm==5) { //[disp: 
25 processRel 

(R_386_32); // 重 定位 

26 instr .writeDisp(); 

27 }else if(modrm.rm==4) { 


28 writeSIB(); 


29 } 

30 break; 

31 case 1: 

32 writeBytes(opcode, 1); 

33 writeModRM( ) ， 

34 if(modrm.rm==4) writeSIB() ， 
35 Instr.writeDisp()， 

36 break; 

37 case 2: 

38 writeBytes(opcode,1); 

39 writeModRM( ) ， 

40 if(modrm.rm==4) writeSIB() ， 
41 instr .writeDisp(); 

42 break; 

43 case 3: 

44 writeBytes(opcode,1); 

45 writeModRM( ) ， 

46 break 

47 

48 } 





1) 第 3 行 首 先 调 用 getOpCode 获 取 指 令 操作 码 的 二 进 制 表示 


opcode。 


2) 第 4~47 行 根据 modrm 的 mod 字 段 对 不 同 的 操作 数 类 型 组 合 进 行 
处 理 。 其 中 mod 为 -1 时 表示 指令 中 有 立即 数 操作 数 ， 其 他 情况 分 别 对 应 
x86 指 令 的 ModR/M 的 mod 字 段 的 本 映 含 义 〈 参 考 第 5 章 对 ModR/M 字 段 
的 描述 ) 





3) 第 5~20 行 处 理 源 操作 数 是 32 位 立即 数 ( 为 了 简化 起 见 ， 将 8 位 立 
即 数 扩展 为 32 位 ) 、 目 的 操作 数 是 32 位 寄存 器 的 情况 。 除 了 lea 指 令 ， 其 
他 双 操作 数 指令 都 有 可 能 使 用 32 位 立即 数 。 其 中 ，mov 指 令 的 操作 码 定 
义 为 “<b8+reg”， 即 0xb8 是 mov 指 令 的 组 属性 操作 人 码 ，reg 保 存 了 目的 寄存 
器 的 编号 。 在 递归 下 降 子 程序 oprand 对 寄存 器 操作 数 的 处 理 中 ， 将 目的 
寄存 器 编号 保存 到 modrm.reg 字 段 ， 源 寄存 器 编号 保存 到 modrm.rm 字 段 
(如 果 有 的 话 ) ， 因 此 mov 指 令 的 操作 人 码 应 该 是 0xb8+modrm.reg 的 值 。 




















虽然 我 们 使 用 modrm.reg 字 段 保 存 了 目的 寄存 器 的 编号 ， 但 是 mov 指 令 内 
并 不 包含 ModR/M 字 上段 ， 这 里 仪 仅 是 使 用 它 保 存 寄存 器 的 编写 而 已 。 


对 于 其 他 指令 ， 操 作 码 定义 为 "81/reg”， 即 0x81 是 指令 的 组 属性 操 
作 码 ，reg 即 modrm.reg 字 段 。 对 于 指令 cmp、sub、add、and、or， 对 应 
的 操作 码 定 义 分 别 为 “81/7”、“81/5”、“81/0”、“81/4”、“81/1”。 这 些 指 
令 是 包含 ModR/M 字 段 的 ， 其 中 modrm.mod=3、modrm.reg 保 存 了 以 上 操 
作 人 码 的 补充 码 、modrm.rm 字 段 保 存 了 目的 寄存 器 的 编号 (原来 的 


modrm.reg 字 段 ) 。 











最 后 ， 调 用 writeBytes 输 出 操作 码 opcode， 并 除了 mov 指 令 外 ， 调 用 
writeModRM 输 出 modrm 字 段 。 在 输出 立即 数 instr.imm32 之 前 ， 我 们 需 
要 调用 processRel 处 理 可 能 存在 的 重 定位 项 。 这 是 因为 每 次 输出 操作 
时 ， 我 们 都 会 自动 时 加 当前 段 的 逻辑 地 址 lb_record: : curAddr， 重 定位 
项 内 需要 记录 该 地 址 作为 重 定 位 位 置 的 段 内 偏 移 。 在 输出 立即 数 之 前 处 
理 可 能 的 重 定位 项 保证 了 重 定位 位 置 恰好 是 立即 数 在 段 内 的 偏 移 地 址 。 











4) 第 21~30 行 处 理 了 内 存 操作 数 是 寄存 器 间 址 的 情况 。 这 里 首先 直 
接 输 出 操作 码 opcode 和 modrm 字 段 。 然 后 处 理 modrm.rm 字 段 为 5 的 情 
况 ， 它 表示 内 存 操作 数 使 用 32 位 偏 移 直接 寻 址 。 类 似 地 ， 在 调用 
writeDisp 输 出 偏 移 字 段 之 前 ， 仍 需要 调用 processRel 处 理 可 能 的 重 定位 
项 。 最 后 处 理 modrm.rm 字 段 为 4 的 情况 ， 它 表示 指令 包含 sib 字 段 ， 因 此 


调用 writeSIB 输 出 sib 字 段 。 











5) 第 31~36 行 处 理 内 存 操作 数 是 8 位 基 址 寻 址 的 情况 。 这 里 仍 是 直 
接 输出 操作 码 opcode 和 modrm 字 段 ， 然 后 处 理 modrm.rm 字 上 段 为 4 时 输出 
sib 字 段 ， 最 后 输出 偏 移 字 段 。 此 人 处 不 需要 重 定位 项 的 处 理 ， 因 为 我 们 的 
编译 器 生成 的 基 址 寻 址 指令 的 偏 移 都 是 数字 常量 ， 不 会 产生 重 定位 。 











6) 第 37~42 行 处 理 内 存 操作 数 是 32 位 基 址 寻 址 的 情况 。 这 里 的 处 理 
流程 与 8 位 基 址 寻 址 完全 相同 ， 函 数 writeDisp 会 自动 根据 偏 移 字 段 的 长 
度 正 确 输出 。 

7) 第 43~46 行 处 理 双 寄存 器 操作 数 的 情况 。 这 种 情况 最 简单 ， 直 接 
输出 操作 码 opcode 和 modrm 字 段 即 可 。 


这 里 ， 我 们 列 出 输出 函数 writeBytes、writeModRM、writeSIB 和 





writeDisp 的 定义 。 
1 A* 
2 按照 小 端 顺 序 〈 


]ittle endian) 输出 指定 长 度数 据 


3 ]en=1 :输出 第 
4 字 节 

4 en=2 :输出 第 
3, 4 字 节 


5 ]en=4 :输出 第 


1 2, 3, 4 字 节 


6 */ 
7 void Generator::writeBytes 


(int value,int len) { 
8 lb_record: :curAddr+=1len; / /计算 地 址 


9 if(scanLop==2) { 

10 fwrite(&value, len,1,Tfout); 
11 } 

12 } 

13 


14 void Generator: :writeModRM 


t 
15 if(modrm.mod!=-1) { 
16 int byte = (modrm.mod << 6) + 
17 (modrm.reg << 3) + modrm.rm， 


19 writeBytes(byte,1); 
23 void Generator: :writeSIB 


24 if(sib.scale!=-1) { 

25 int byte = (sib,.scale << 6) + 

26 (Sib,index << 3) + sib.base,; 
27 

28 writeBytes(byte,1); 

29 

30 } 

31 

32 void Inst::writeDisp 


() 荆 

33 if(dispLen) { 

34 generator .writeBytes(disp,dispLen); 
35 dispLen=0; 

36 

37 } 








1) 函数 writeBytes 在 汇编 器 的 第 二 遍 扫描 时 ， 根 据 参数 len 的 长 度 将 
value 按 照 小 字 节 序 写 入 输出 流 fout 指 向 的 临时 文件 中 。 无 论 汇编 器 是 第 
几 遍 扫描 ，writeBytes 都 会 正常 累加 lb_record: : curAddr 的 值 ， 这 样 就 
可 以 保证 每 次 扫描 都 能 处 理 到 正确 的 段 内 偏 移 以 及 段 大 小 。 








2) 函数 writeModRM 和 writeSIB 分 别 将 modrm 和 sib 对 象 拼接 为 单字 
节 ， 并 调用 writeBytes 进 行 输出 。 


3) 函数 writeDisp 根 据 偏 移 字段 的 长 度 dispLen， 调 用 writeBytes 将 偏 
移 字 段 disp 正 确 输出 。 


6.5.2 单 操作 数 指令 


相 比 于 双 操 作 数 指令 ， 单 操作 数 指令 的 处 理 不 具有 一 般 性 。 需 要 处 
理 的 单 操 作 数 指令 有 call、int、imul、idiv、neg、inc、dec、jmp、je、 
jne、sete、setne、setg、setge、setl、setle、push 和 pop 共 18 种 指令 。 类 似 


地 ， 我 们 构造 一 个 简单 的 单 操作 数 指令 的 操作 码 表 。 





1 static int i 1opcode 


[]=t{ 

2 //call, int, imul, idiv, neg, inc, dec, jmp 
3 Oxe8, Oxcd, Oxf7, Oxf7, Oxf7, Ox40, Ox48, QOxeg9, 
4 //je, jne 

5 Ox84, QOx85, 

6 //sete, setne,setg, setge,set]l, setle 

7 Ox94, Ox95, Ox9f, Ox9d, Ox9c, QOx9e, 

8 //push pop 

9 Ox50, Ox58 

10 }; 





需要 说 明 的 是 ， 指 令 je、jne、sete、setne、setg、setge、setl、setle 
的 操作 码 实 际 为 双 字 节操 作 码 ， 这 里 省 略 了 转移 操作 码 0x0f。 对 于 其 他 
指令 ， 根 据 操作 数 的 不 同 ， 操 作 码 也 会 发 生变 化 ， 这 里 只 列举 了 某 一 种 
操作 数 情况 下 的 操作 码 ， 有 具体 的 操作 码 的 值 在 处 理 时 会 详细 说 明 。 





针对 单字 市 指令 的 处 理 如 下 。 





1 void Generator::geniop 


(Tag tag,int opr_t,int len) { 

2 int opcode = i 1opcode[tag-I_ CALL]; 

3 if(tag==I_CALL||tag>=I_JMP&&tag<=I_JNE) { 
4 if(tag!=I_CALL&&tag!=I_JMP) { 


(R_386_PC32) ? 


11 


18 


23 


} else 


} else 


} else 


} else 


writeBytes(Oxof, 1); 


writeBytes(opcode); 


int addr = processRel 


// 重 定位 


Jb_record: :curAddr : instr.imm32; 
int pc = lb_record::curAddr+4; //Ppc 地 址 


writeBytes(addr-pc, 4); // 


if (tag>=I_SETE&&tag<=I_SETLE) { 
modrm.mod=3; 
modrm.rm=modrm.reg; 

modrm.reg=0; 


writeBytes(OxOof, 1); 


writeBytes(opcode, 1); //# 


writeModRM( ) ， 


if (tag==I_INT) { 
writeBytes(opcode, 1); //+ 


writeBytes(instr.imm32,1); // 立 即 


if (tag==I_PUSH) { 
if(opr_t==IMMEDIATE) opcode=0x68 ; 
else opcode += modrm.reg; 


writeBytes(opcode,1); // 操 1 


if(opr_t==IMMEDIATE) 
writeBytes(instr.imm32,4); // 立 即 


if(tag==I_INC| |tag==I_DEC) { 
if(len==1){ 
opcode=0xfe; 
int reg codes[]={0, 1}; // 


35 modrm.mod=3; 


36 modrm.rm=modrm.reg; 

37 modrm.reg=reg_codes[tag-I_INC]; 

38 } else { 

39 opcode += modrm.reg,; 

40 

41 

42 writeBytes(opcode, 1); 

43 if(len==1) writeModRM(); //modrt 
44 } else if(tag==I_NEG) { 

45 if(len==1) opcode=0xf6; 

46 modrm.mod=3， 

47 modrm.rm=modrm.reg; 

48 modrm.reg=3; 

49 

50 writeBytes(opcode,1); // 
51 writeModRM( ) ， 

52 } else if(tag==I_POP) { 

53 opcode+=modrm.reg; 

54 writeBytes(opcode,1); // 
55 } else if(tag==I_IMUL||tag==I_IDIV) { 

56 int reg_codes[]={5, 7}; // 
57 modrm.mod=3， 

58 modrm.rm=modrm.reg; 

59 modrm.reg=reg_codes[tag-I_IMUL]; 

60 

61 writeBytes(opcode, 1); // 
62 writeModRM( ) ; 

63 

64 } 





1) 第 3~11 行 处 理 跳 转 类 指令 的 情况 。 之 所 以 将 跳 转 类 指令 〈 使 用 
相对 地 址 的 指令 ) 统一 处 理 ， 因 为 它们 涉及 重 定位 项 的 处 理 。 我 们 需要 
处 理 的 跳 转 类 指令 包含 call、jmp、je、jne 共 4 种 指令 。 对 于 Jcc 指 令 ， 在 
输出 操作 码 opcode 之 前 ， 需 要 先 输出 转 义 操作 码 0x0f。 接 下 来 便 是 输出 
相对 地 址 ， 而 相对 地 址 的 值 与 指令 是 否 需要 重 定位 是 相关 的 。 首 先 调用 














processRel 处 理 可 能 存在 的 相对 地 址 重 定位 ， 如 果 重 定位 成 功 ， 则 说 明 
立即 数字 段 instr.imm32 保 存 的 目标 地 址 无 效 ， 那 么 我 们 将 目标 地 址 设置 
为 当前 段 内 偏 移 lb_record: : curAddr， 和 否则 正常 使 用 instr.imm32 作 为 目 
标 地 址 。 变 量 pc 保存 了 下 一 条 指令 的 地 址 ， 即 ]b_record: : curAddr+4， 
最 终 目 标 地 址 addr 与 pc 的 差 值 就 是 指令 中 相对 地 址 的 值 。 











我 们 有 发现， 按照 上 述 处 理 的 流程 ， 当 发 生 相 对 地 址 重 定 位 时 ， 指 令 
中 的 相对 地 址 为 常量 值 -4。 而 未 发 生 相 对 地 址 重 定 位 时 ， 指 令 中 的 相对 
地 址 仍 是 原本 的 相对 地 址 。 之 所 以 这 样 繁琐 地 处 理 是 为 了 与 链接 器 重 定 
位 操作 保持 一 致 ( 参 考 第 7 章 关 于 重 定位 操作 的 描述 ) ， 在 重 定位 时 会 
读 取 指令 中 保存 的 相对 地 址 的 值 ， 然 后 根据 该 值 计算 最 终 链接 后 的 相对 
地 址 。 








2) 第 12~20 行 处 理 SETcc 类 指令 。 这 类 指令 也 是 双 字 节操 作 码 ， 且 
用 modrm.reg 字 上 段 补充 操作 码 ， 操 作 码 定义 为 “SETcc/0”?。 其 中 
modrm.mod 字 上 段 为 3、modrm.reg 字 上段 为 0、modrm.rm 字 上 段 为 寄存 器 操作 
数 的 编号。 输出 指令 时 ， 首 先 输出 转 义 操作 人 码 ， 然 后 输出 opcode 和 


modrm 字 段 。 


3) 第 21~23 行 处 理 int 指 令 。 该 指令 是 单字 节操 作 码 指令 ， 操 作 数 是 


8 位 立即 数 。 因 此 直接 输出 opcode 和 instr.imm32 低 8 位 即 可 。 


4) 第 24~30 行 处 理 push 指 令 。 我 们 使 用 的 push 指 令 的 操作 数 有 两 


类 : 32 位 立即 数 和 32 位 寄存 器 。 当 操作 数 为 立即 数 时 ，push 指 令 的 操作 
码 是 0x68， 操 作 码 后 紧 跟 32 位 立即 数 。 当 操作 数 为 寄存 器 时 ，push 指 令 
操作 码 为 组 属性 操作 码 ， 使 用 寄存 器 编号 进行 补充 ， 操 作 码 定义 

为 “50+reg”"。 单 操作 数 指令 操作 码 表 保存 的 push 指 令 操作 码 正 是 此 值 ， 
因此 输出 操作 码 前 需要 将 opcode 累 加 操作 数 寄存 器 的 编码 值 。 


5) 第 31~43 行 处 理 inc 和 dec 指 令 。 我 们 只 使 用 了 指令 操作 数 为 寄存 
器 的 情况 ， 不 过 该 类 指令 的 操作 码 定义 与 操作 数 长 度 相 关 。 当 操作 数 为 
32 位 寄存 器 时 ， 操 作 码 定义 为 *inc/dec+reg”， 即 使 用 操作 数 寄存 器 编号 
补充 操作 码 ， 组 属性 操作 码 的 值 见 操作 码 表 。 当 操作 数 为 8 位 寄存 器 
时 ，inc 指 令 的 操作 码 定义 为 “fe/0”，dec 指 令 的 操作 码 定 义 为 “fe/1”， 即 
使 用 modrm.reg 补 充 操 作 码 ， 因 此 需要 输出 0xfe 和 modrm 字 段 。 





6) 第 44~52 行 处 理 neg 指 令 。neg 指 令 操作 码 定 义 也 与 操作 数 长 度 相 
关 。 当 操作 数 长 度 为 32 位 寄存 器 时 ， 操 作 码 定义 为 “f7/3”。 当 操作 数 长 
度 为 8 位 寄存 器 时 ， 操 作 码 定义 为 “f6/3”。 因 此 输出 组 属性 操作 码 后 ， 还 


要 输出 modrm 字 段 。 


7) 第 52~54 行 处 理 pop 指 令 。pop 指 令 操 作 数 为 32 位 寄存 器 时 ， 操 作 
码 定 义 为 “58+reg”， 即 使 用 寄存 堪 操 作 数 编码 补充 操作 人 码 。 

8) 第 55~62 行 处 理 imul 和 idiv 指 令 。 这 两 个 指令 使 用 32 位 寄存 右 操 
作 数 时 ， 使 用 相同 的 组 属性 操作 码 ， 操 作 码 定义 分 别 为 “f7/5” 和 “f7/7”。 


此 需要 输出 0xf7 和 modrm 字 段 。 


6.5.3 和 零 操 作 数 指令 


最 后 讨论 零 操 作 数 指令 ， 该 类 指令 我 们 只 处 理 一 种 指令 ret， 指 令 二 


进 制 编码 为 0xc3。 





1 static int i 0opcode 


[]= 

2 

3 //ret 

4 Oxc3 

5 }; 

6 

7 void Generator : :gen0op 


(Tag tag) { | 
8 int opcode=i Qopcode[tag-I_ RET]; 
9 writeBytes(opcode, 1); / /操作 码 


10 } 


二 一 


6.6 目标 文件 生成 








汇编 器 两 裔 扫描 结束 后 ， 段 表 信息 、 符 号 表 信息 和 重 定位 表 信 息 已 
经 保存 到 ELF 文 件 对 象 中 ， 代 码 段 的 内 容 被 放 入 一 个 临时 文件 内 ， 而 数 
据 段 的 内 容 可 以 下 接 从 汇编 占 的 符号 表 中 取出 包含 数据 的 符号 输出 即 
可 。 最 终 汇编 器 会 根据 图 6-6 描 述 的 ELF 文 件 结构 ， 将 ELEF 文 件 头 、 代 码 
段 、 数 据 段 、 段 表 字 符 串 表 、 段 表 、 符 号 表 、 字 符 串 表 、 重 定位 表 的 内 
容 按 序 输出 ， 生 成 合法 的 可 重 定位 目标 文件 。 








整个 过 程 分 为 两 大 阶段 。 


1) ELF 文 件 结构 组 装 。 根 据 扫描 得 到 ELF 文 件 信 息 ， 完 善 ELF 文 件 
结构 的 数据 。 包 括 文件 头 各 个 字段 的 值 、 串 表 的 内 容 以 及 引用 串 表 内 的 
字符 串 偏 移 信息 〈 如 段 表 项 的 段 名 字段 sh_name、 符 号 表 项 的 符号 名 字 


段 st_name) 、 重 定位 表 项 等 。 


2) ELE 文 件 结构 输出 。 输 出 文件 头 、 人 代码 段 、 数 据 段 、 段 表 字 符 
串 表 、 段 表 、 符 号 表 、 字 符 串 表 、 重 定位 表 的 内 容 。 任 何 两 个 文件 结构 
因为 对 齐 再 要 产生 了 空 除 ， 则 使 用 0 填充 补 齐 。 


首先 看 ELF 文 件 结构 的 组 装 。 


1 void Elf_file::assemOb]j 


卢 oODOI 人 上 


11 


13 


15 


/V 所 有 段 名 


vector<string> AllSegNames = shdrNames,; 
AllSegNames.push_back(".shstrtab"); 
AllSegNames.push_back(".symtab"); 
AllSegNames.push_back(".strtab"); 
AllSegNames.push_back(".rel.text"); 
AllSegNames.push_back(".rel.data"); 


// 段 索引 


hash_map<string,int,string_hash> shIindex 


/ /上段 名 索引 


hash_map<string,int,string_hash> shstrIindex 


/ /建立 索引 


for (int i=0;i<AllSegNames 


.Size();++i)f{ 


16 string name = AllSegNames[i]; 

17 shIindex[name] = i; 

18 shstrIindex[name] = shstrtab.size(); 
19 shstrtab 

+= name ; 

20 shstrtab.push_back('\0'); 

21 } 

22 

23 // 符 号 索引 

24 hash_map<string,int,string_hash> symIndex 
/ 

25 / /符号 名 索引 

26 hash_map<string,int,string_hash> strIindex 


/ /保存 数据 


27 / /建立 索引 


28 for (int i=0;i<symNames 


.Size();++i)f{ 
29 string name = symNames[i]; 


30 symIndex[name] = i; 

31 strIindex[name] = strtab.size(); 
32 strtab 

+= name; 

33 strtab.push_back('\0'); 

34 } 

35 

36 / /更 新 符号 表 符 号 名 索引 

37 for (int i=0;i<symNames 


.Size();++i)f{ 
38 string name = symNames[i]; 
39 symTab 


[name]->st_name=strIindex[name]; 


40 } 

41 

42 / /处理 重 定位 表 

43 for(int i=0;i<relTab 


.Size();i++){ 
44 Elf32_Rel*rel=new Elf32_ Rel(); 


45 rel->r_offset=relTab[i]->rel->r_offset,; 

46 rel->r_info=ELF32_R_INFO( 

47 symIndex[relTab[i]->rel Namel], 

48 ELF32_R_TrPE(relTab[i]->rel->r_info) 
49 


50 if(relTab[i]->SegName==". text") 


/ /保存 数据 


// 重 定位 位 置 


// 重 定位 类 型 


/ / 重 定位 县 


51 


relTextTab 


.push_back(rel); 


52 
53 


else if(relTab[i]->SegName==".data") 
relDataTab 


.push_back(rel); 


54 
55 
56 
57 
58 


59 


); 


82 
83 


84 
85 


86 


else 
delete rel; 


/ /处 理 文件 头 


char magic[] = { 


QOx71, Ox45, Ox4c, Ox46, 
QOx01, Ox01, Ox01, Ox00, 
QOx00, Ox00, Ox00, Ox00, 
QOx00, Ox00, Ox00, OxQ00 


}; 


memcpy(&ehdr.e_ident, magic, sizeof(magic)); 
ehdr.e_type=ET_REL,; 
ehdr.e_machine=EM_386; 
ehdr.e_version=EV_CURRENT; 
ehdr.e_entry=0; 

ehdr.e_phoff=0; 

ehdr.e_shoff=0; 

ehdr.e_flags=0; 
ehdr.e_ehsize=sizeof(E1lf32_ Ehdr); 
ehdr.e_phentsize=0; 

ehdr.e_phnum=0; 
ehdr.e_shentsize=sizeof(Elf32_ Shdr); 
ehdr.e_shnum=AllSegNames .size( ); 
ehdr.e_shstrndx=shIndex[".shstrtab"]; 


int curoff = sizeof(ehdr 


/ /文件 头 ， 已 对 齐 


curoff += dataLen; 


/ /添加 新 的 段 表 项 


addShdr(",shstrtab 


", SHT_STRTAB, 0, 0, curOff， 


87 
88 
89 


shstrtab,.size(),SHN_UNDEF,0,1.,0); 
curoff += shstrtab.size(); 
curOff += (4-curOff%4)%4; 


/ /对 齐 


91 ehdr.e_shoff 

= curoff; 

92 curoff += ehdr.e_shnum*ehdr.e_shentsize; 
93 

94 addShdr(",Symtab 


", SHT_SYMTAB, 0, ©, curoff, 


95 symNames .size()*sizeof(El1f32_Sym), 

96 shIindex[".strtab"],0,1,sizeof(Elf32_ Sym)); 
97 curoff += symNames.size()*sizeof(Elf32_Sym); 

98 

99 addShdr(" .strtab 


", SHT_STRTAB, 0, 0, curOff， 


100 strtab.size(),SHN_UNDEF, 0,1.,0); 
101 Curoff += strtab.size(); 

102 curOff += (4-curOff%4)%4; 

103 

104 addSshdr(".rel.text 


", SHT_REL, 0,0, curoOff， 


105 relTextTab.size()*sizeof(Elf32_ Rel), 

106 shIindex[".symtab"],shIindex[".text"],1, 
107 sizeof (Elf32_Rel)); 

108 curoff += relTextTab.size()*sizeof(Elf32_ Rel); 
109 

110 addShdr(" ,rel,data 


", SHT_REL, 0,0, curoOff， 


111 relDataTab.size()*sizeof(Elf32 Rel), 

112 shIindex[".symtab"],shIindex[".data"],1, 
113 sizeof (Elf32_Rel)); 

114 curoff += relDataTab.size()*sizeof(El1f32_ Rel); 
115 


116 / /更 新 段 表 段 名 索引 


/ / 段 表 ， 已 对 齐 


/ /已 对 齐 


/ /对齐 


/ /已 对 齐 


// 己 对 齐 


117 for (int i=0;i<AllSegNames.size();++i){ 
118 string name = AllSegNames[i]; 
119 shdrTab 


[name]->sh_name=shstrIindex[name]; 
120 


121 } 





1) 第 2~8 行 ， 我 们 使 用 AllSegNames 记 录 所 有 的 段 名 ， 包 括 
shdrNames 记 录 的 段 〈 空 段 表 项 (初始 化 时 加 入 )〉 、 汇 编 代 码 中 扫描 得 
到 的 代码 段 “.text* 和 数据 段 “.data”) ， 以 及 ELF 文 件 内 部 使 用 的 


段 : “.shstrtab”、“.symtab”、“.strtab”、“.rel.text” 和 和 “.rel.data”。 


2) 第 10~21 行 建立 段 索 引 shIndex 和 上 段 名 索引 shstrIndex。shIndex 记 
录 了 每 个 段 表 项 在 AllSegNames 的 索引 位 置 ， 段 表 会 根据 AllSegNames 记 
录 的 段 名 顺序 生成 各 个 段 表 项 。shstrIndex 记 录 了 每 个 段 名 在 段 表 字符 串 
表 “.shstrtab” 内 的 位 置 ， 我 们 按 AllSegNames 的 顺序 拼接 所 有 的 段 名 形成 
段 表 字 符 串 表 ， 拼 接 时 注意 使 用 \0' 分 割 不 同 的 段 名 。 





3) 第 23~34 行 建立 符号 索引 symIndex 和 符号 名 索引 strIndex。 
symIndex 记 录 了 每 个 符号 表 项 (包括 初始 化 时 添加 的 空 符号 表 项 在 符 
写 名 列表 symNames 的 索引 位 置 ， 符 号 表 会 根据 symNames 记 录 的 符号 名 
顺序 生成 各 个 符号 表 项 。strIndex 记 录 了 每 个 符号 名 在 字符 串 
表 “.strtab” 内 的 位 置 ， 我 们 按 symNames 的 顺序 拼接 所 有 的 符号 名 形成 字 
符 串 表 ， 拼 接 时 注意 使 用 ^\0’ 分 割 不 同 的 符号 名 。 





4) 第 36~40 行 扫描 符号 表 strTab， 然 后 将 每 个 符号 表 项 的 st_name 字 


段 设 为 符号 名 在 字符 串 表 内 的 索引 ， 完 成 符号 表 信息 的 补充 。 














5) 第 42~56 行 处 理 ELF 文 件 对 象 内 记录 的 重 定位 表 项 信息 。 首 先生 
成 重 定位 表 项 Elf32_Rel， 设 置 重 定位 位 置 r_offset， 使 用 ELF32_R_INFO 
宏 设 置 重 定位 符号 (符号 索引 ) 和 重 定位 类 型 r_info。 最 后 根据 重 定位 
的 段 名 将 重 定位 信息 分 为 两 个 部 分 : 代码 段 重 定位 表 relTextTab 和 数据 
段 重 定位 表 relDataTab。 























6) 第 58~79 行 处 理 ELF 文 件 凑 ， 按 照 第 5 章 描述 的 ELF 文 件 头 的 内 容 
设置 对 应 字段 。 其 中 ，e_type 设 为 ET_REL 表 示 文 件 类 型 是 重 定位 目标 
文件 ，e_ehsize 设 为 sizeof (Elf32_Ehdr) 表示 文件 头 大 小 ，e_shentsize 设 
为 sizeof (Elf32_Shdr) 表示 上 段 表 项 的 大 小 ，e_shnum 设 为 AllSegNames 的 
大 小 表示 段 表 项 个 数 ，e_shstrmndx 设 为 “.shstrtab” 的 段 索 引 。 另 外 ， 
e_shoff 和 暂时 初始 化 为 0， 因 为 还 未 确定 段 表 的 文件 俩 移 。 








7) 第 81~83 行 将 curOff 初 始 化 为 ELEF 文 件 头 的 大 小 ， 然 后 累加 
dataLen 大 小 。dataLen 记 录 了 汇编 器 扫描 的 所 有 段 〈 代 码 段 和 数据 段 ) 
对 齐 后 的 大 小 。 因 为 最 终 curOff 为 文件 头 、 代 码 段 、 数 据 段 的 总 大 小 ， 
即 “.shstrtab” 段 的 文件 偏 移 。 


8) 第 85~89 行 添加 “.shstrtab” 的 段 表 项 到 段 表 shdrTab。 其 中 比较 关 
键 的 字段 有 段 名 “.shstrtab”、 段 类 型 SHT_STRTAB、 段 文件 偏 移 curOff、 
段 大 小 shstrtab.size〈《) 、 对 齐 大 小 1( 即 该 段 的 文件 偏 移 不 进行 对 齐 ) 


等 。 然 后 将 curOff 累 加 当前 段 大 小 、 对 齐 〈 后 续 文件 结构 要 求 的 对 齐 方 
式 ) ， 继 续 处 理 下 一 个 文件 结构 。 











9) 第 91~92 行 处 理 段 表 的 信息 。 首 先 将 文件 头 的 e_shoff 设 为 
curOff， 即 段 表 的 偏 移 。 然 后 将 curOff 累 加 段 表 的 大 小 : 段 表 项 个 数 * 段 
表 项 大 小 。 


10) 第 94~97 行 添加 “.symtab” 的 段 表 项 到 段 表 shdrTab。 其 中 比较 关 
键 的 字段 有 上 段 名 “.symtab”、 段 类 型 SHT_SYMTAB、 上 段 文 件 偏 移 
curOff、 段 大 小 (符号 表 项 个 数 * 符 写 表 项 大 小 ) 、sh_link 记 录 符 写 表 使 
用 的 串 表 “.strtab” 的 段 索 引 、sh_info 记 录 第 一 个 全 局 符号 的 符号 索引 
《由 于 我 们 没有 在 符号 表 内 区 分 全 局 符号 的 区 域 ， 因 此 设 为 0， 这 样 链 
接 器 会 扫描 所 有 的 符号 ， 根 据 符 号 的 全 局 属性 进行 符号 解析 ) 、 对 齐 大 
小 1《 即 该 段 的 文件 偏 移 不 进行 对 齐 ) 、 符 号 表 项 大 小 
sizeof (Elf32_Sym) 等 。 然 后 将 curOff 累 加 当前 段 大 小 ， 继 续 处 理 下 一 
个 文件 结构 。 














11) 第 99~102 行 添加 “.strtab” 的 段 表 项 到 上 段 表 shdrTab。 其 中 比较 关 
键 的 字段 有 上 段 名 “.strtab”、 段 类 型 SHT_STRTAB、 段 文件 偏 移 curOff、 
段 大 小 strtab.size () 、 对 齐 大 小 1 〈 即 该 段 的 文件 偏 移 不 进行 对 齐 ) 
等 。 然 后 将 curOff 累 加 当前 段 大 小 、 对 齐 (后续 文件 结构 要 求 的 对 齐 方 
式 ) ， 继 续 处 理 下 一 个 文件 结构 。 


12) 第 104~108 行 添加 “.rel.text” 的 段 表 项 到 段 表 shdrTab。 其 中 比较 
关键 的 字段 有 上段 名 “.rel.text*、 段 类 型 SHT_REL、 上 段 文件 偏 移 curoff、 段 
大 小 《代码 段 重 定位 表 项 个 数 * 重 定位 表 项 个 数 ) 、 对 齐 大 小 1〈 即 该 段 
的 文件 偏 移 不 进行 对 齐 ) 、 重 定位 表 项 大 小 sizeof (Elf32_Rel) 等 。 然 
后 将 curOff 累 加 当前 段 大 小 ， 继 续 处 理 下 一 个 文件 结构 。 





13) 第 110~114 行 添加 “.rel.data” 的 段 表 项 到 段 表 shdrTab。 其 中 比较 
关键 的 字段 有 段 名 “.rel.data”、 段 类 型 SHT_REL、 段 文件 偏 移 curOfft、 段 
大 小 (数据 段 重 定位 表 项 个 数 * 重 定位 表 项 个 数 ) 、 对 齐 大 小 1〈 即 该 段 
的 文件 偏 移 不 进行 对 齐 )、 香 定位 表 项 大 小 sizeof (Elf32_Rel) 等 。 然 
后 将 curOff 累 加 当前 段 大 小 ， 继 续 处 理 下 一 个 文件 结构 。 














14) 第 116~120 行 扫描 段 表 shdrTab， 然 后 将 每 个 段 表 项 的 sh_name 
字段 设 为 段 名 在 段 表 字符 串 表 内 的 索引 ， 完 成 段 表 信息 的 补充 。 


到 这 里 ， 已 经 完成 了 ELF 目 标 文 件 信息 的 组 装 。 


最 后 ， 便 是 ELF 文 件 结构 的 输出 。 





1 void Elf_ file: :writeElf 


int padNum = 0; 
char pad[1]={0}; 


OOD ~ 


// 文 件 头 


6 fwrite(&ehdr 


,ehdr.e_ehsize,1,fout); 


//.text 
char buffer[1024]={0}; 
int count = -1; 


while(count) { 
count = fread(buffer,1,1024,fin 


fwrite(buffer,1,count,fout); 


} 


//.data 

padNum = shdrTab[".data"]->sh_offset 
- shdrTab[".text"]->sh_offset 
- shdrTab[".text"]->sh_size; 

fwrite(pad,sizeof(pad),padNum, fout ) ; 

table .write 


//.shstrtab 
padNum = shdrTab[".shstrtab"]->sh_offset 
- shdrTab[".data"]->sh_offset 
- shdrTab[".data"]->sh_size; 
fwrite(pad,sizeof(pad),padNum, fout ) ; 
fwrite(shstrtab 


.C_str(),shstrtab.size(),1,fout); 
29 


30 


// 段 表 


padNum = ehdr.e_shoff 
- shdrTab[".shstrtab"]->sh_offset 
- shdrTab[".shstrtab"]->sh_size; 
fwrite(pad,sizeof(pad),padNum, fout ) ; 
for(int i=0;i<shdrNames.size();++1i){ 
Elf32_Shdr*sh=shdrTab 


[shdrNames[i]]; 


37 
38 


fwrite(sh,ehdr.e_shentsize,1,fout); 


} 
// 符 号 表 


for(int i=0;i<symNames.size();++1i){ 
Elf32_Sym*sym=symTab 


[symNames[i]]; 


fwrite(sym,sizeof(El1f32_Sym),1,fout); 


//.strtab 
fwrite(strtab 


.C_str(),strtab.size(),1,fTfout),; 


49 //.rel.text 

50 padNum = shdrTab[".rel.text"]->sh_offset 

51 - shdrTab[".strtab"]->sh_offset 

52 - shdrTab[".strtab"]->sh_size; 

53 fwrite(pad,sizeof(pad),padNum, fout); 

54 for(int i=0;i<relTextTab.size();++i){ 

55 Elf32_Rel*rel=relTextTab 

[i]; 

56 fwrite(rel,sizeof(El1f32_ Rel),1,fout); 
57 } 

58 

59 //.rel.data 

60 for(int i=0;i<relDataTab.size();++i){ 

61 Elf32_Rel*rel=relDataTab 

[i]; 

62 fwrite(rel,sizeof(El1f32 Rel),1,fout); 
63 } 

64 } 





1) 首先 输出 ELE 文 件 头 shdr， 调 用 fwrite 将 该 结构 输出 到 文件 即 
可 。 


2) 第 8~14 行 输出 代码 段 的 二 进 制 内 容 。 其 中 ， 输 入 流 文 件 指针 fin 
指 回 指令 生成 时 产生 的 代码 段 临 时 文件 ， 这 里 只 需要 将 临时 文件 的 内 容 
输出 到 目标 文件 即 可 。 


3) 第 16~21 行 输出 数据 段 的 三 进 制 内 容 。 首 先 使 用 0 填充 “.data” 段 
和 “.text”* 段 因为 对 齐 产 生 的 间 际 。 然 后 调用 符 写 表 table 的 write 函 数 输 出 
数据 段 的 内 容 。 


4) 第 23~28 行 输出 “.shstrtab” 段 。 首 先 使 用 0 填充 “.shstrtab” 段 
和 “.data” 段 因为 对 齐 产生 的 间 际 。 然 后 输出 shstrtab 保 存 的 段 名 字符 串 内 


容 
O 


5) 第 30~38 行 输出 段 表 。 首 先 使 用 0 填充 段 表 和 “.shstrtab” 段 因为 对 


齐 产 生 的 间 际 。 然 后 按照 shdrNames 保 存 的 段 名 顺序 输出 shdrTab 保 存 的 
段 表 项 内 容 。 


6) 第 40~44 行 输出 “symtab” 段 。 只 需 按照 symNames 保 存 的 符号 名 
顺序 输出 symTab 保 存 的 符号 表 项 内 容 即 可 。 


7) 第 46~47 行 输出 “.strtab” 段 。 只 需 输出 strtab 保 存 的 符号 名 字符 串 


内 容 即 可 。 


8) 第 49~57 行 输出 “reltext”" 段 。 首 先 使 用 0 填充 “.rel.text” 段 


和 *.strtab” 段 因为 对 齐 产生 的 间隙 。 然 后 输出 relTextTab 保 存 的 代码 段 重 
定位 表 项 内 容 。 


9) 第 59~63 行 输出 “.rel.data” 段 。 只 需 输出 relDataTab 保 存 的 数据 段 
重 定位 表 项 内 容 即 可 。 


在 输出 数据 段 的 内 容 时 ， 调 用 符 扎 表 的 write 函数 实现 。 





1 void lb_record: :write 


( 
2 for(int i=0; i<times; i++) { 

3 list<int>::iterator j = cont.begin(); 
4 for(; j != cont.end(); j++) { 

5 generator .writeBytes 


(*j, this->len); 
6 

7 J 
8 } 

9 


10 void Table: :write 


t 
11 for(int i=0;i<defLbs,.size();i++) { 
12 defLbs 


[i]->write( ); 
13 } 


14 } 





符号 表 会 过 历 所 有 的 已 经 保存 的 包含 数据 的 符号 defLbs， 然 后 逐个 
输出 符号 的 数据 内 容 。 符 号 对 象 的 write 方法 会 根据 符号 定义 的 重复 次 数 
和 长 度 ， 调 用 指令 生成 器 的 writeBytes 方 法 将 符号 的 数据 按照 小 字 节 序 
和 输出。 








至 此 ， 我 们 将 可 重 定位 目标 文件 的 内 容 输 出 完毕 ， 完 成 了 汇编 絮 的 
最 后 一 步 操作 。 使 用 readelf 命 令 ， 可 以 但 看 验证 我 们 输出 的 目标 文件 结 
构 的 正确 性 。 


6.7 “本章 小 结 


本 草根 据 已 设计 的 汇编 硕 结 构 ， 分 别 从 词法 分 析 、 语 法 分 析 、 符 号 
表 管 理 、 表 信息 生成 、 指 令 生 成 和 目标 文件 生成 的 角度 描述 了 一 个 简单 
的 汇编 右 实 现 。 我 们 发 现汇 编 磺 和 编译 器 在 实现 上 有 很 大 的 相似 性 ,无 
其 是 在 词法 分 析 和 语法 分 析 部 分 ， 有 很 多 相似 的 逻辑 和 流程 。 不 过 汇编 
器 也 有 其 独特 性 ， 在 生成 ELF 文 件 和 处 理 汇编 指令 的 翻译 过 程 中 ， 涉 及 
了 大 量 计算 机 底层 的 内 容 。 笔 者 在 实现 汇编 器 和 整理 本 章 内 容 的 时 候 ， 
也 会 反复 查阅 Intel 的 x86 指 令 手 册 以 及 ELF 相 关 的 资料 ， 以 保证 每 个 指令 
的 操作 码 和 ELF 文 件 结构 字段 描述 的 正确 性 ， 避 免 误 导读 者 。 








相信 经 过 本 章 的 摘 述 ， 大 家 对 汇编 器 的 实现 有 了 比较 清晰 的 了 解 。 
我 们 目前 终于 错 消 了 一 段 高 级 语言 代码 是 如 何 一 步 步 转 化 为 目标 文件 
的 。 不 过 目标 文件 仅仅 存储 了 代码 的 二 进 制 表示 ， 还 不 能 在 操作 系统 中 
正常 执行 。 在 接 下 来 的 第 7 革 中 ， 我 们 将 介绍 如 何 将 汇编 占 生 成 的 目标 
文件 处 理 、 组 装 成 一 个 真正 可 以 执行 的 文件 ， 以 验证 我 们 目 定 义 的 高 级 
语言 代码 和 编译 系统 实现 的 正确 性 。 


第 7 重 ”链接 右 构 造 
合 纵 缔 交 ， 相 与 为 一 。 


一 一 《史记 》 


在 编译 系统 中 ， 链 接 器 扮演 类 似 “ 胶 水 ”的 角色 。 它 把 汇编 器 处 理 生 
成 的 可 重 定位 目标 文件 话 合 、 拼 接 为 一 个 可 执行 的 ELF 文 件 。 然 而 ， 链 
接 絮 并 非 机 械 地 拼接 目标 文件 ， 它 还 需要 完成 汇编 阶段 无 法 完成 的 段 地 
址 分 配 、 符 号 地 址 计算 以 及 数据 /指令 内 容 修 正 的 工作 。 这 三 个 主要 任 
务 涉 及 了 链接 器 工作 的 核心 流程 : 地 址 空间 分 配 、 符 号 解析 和 重 定位 。 








在 可 重 定 位 目标 文件 的 段 表 项 中 ， 段 的 虚拟 地 址 都 是 默认 设 为 0。 
这 是 因为 在 汇编 器 处 理 阶段 ， 是 不 可 能 知道 段 的 加 载 地 址 的 。 链 接 器 的 
地 址 空间 分 配 操 作 的 主要 目的 是 为 段 指 定 加 载 地 址 。 


在 确定 了 段 加 载 地 址 《简称 段 基 址 ) 后， 根据 目标 文件 内 符号 的 段 
内 侦 移 地 址 ， 可 以 计算 得 到 符 吕 的 虚拟 地 址 〈 简 称 符号 地 址 ) 。 和 链接 器 
的 符号 解析 操作 并 不 止 于 计算 符号 地 址 ， 它 还 需要 分 析 目 标 文件 之 间 的 
符 写 引用 的 情况 ， 计 算 目 标 文件 内 引用 的 外 部 符 写 的 地 址 。 


符号 解析 之 后 ， 所 有 目标 文件 的 符号 地 址 都 已 经 确定 。 链 接 器 通过 
重 定位 操作 ， 修 正 代 码 段 或 数据 段 内 引用 的 符号 地 址 。 


最 后 ， 链 接 需 将 以 上 操作 处 理 后 的 文件 信息 导出 为 可 执行 ELF 文 
完 


件 ， 完 成 链接 的 工作 。 


参考 图 2-17 描 述 的 链接 器 的 结构 设计 ， 我 们 在 本 章 详 细 阐述 链接 器 
每 个 功能 模块 的 实现 。 


7.1 信息 收集 


对 链接 器 来 说 ， 其 输入 是 一 系列 的 可 重 定位 目标 文件 。 链 接 絮 和 欲 完 
成 后 续 的 工作 ， 必 须 逐 个 扫描 目标 文件 ， 提 取 需 要 的 信息 进行 处 理 。 因 
此 ， 我 们 需要 建立 必要 的 数据 结构 缓存 链接 器 需要 的 信息 。 


7.1.1 目标 文件 信息 





首先 ， 需 要 建 六 ELF 文 件 对 象 ， 保 存 扫 搬 的 目标 文件 信息 。 第 6 革 
己 经 构建 了 Elf_file 对 象 ， 不 过 该 对 象 的 主要 功能 是 将 ELF 文 件 结构 信息 
写 入 目标 文件 。 而 链接 器 需要 扫描 ELF 文 件 的 内 容 ， 因 此 需要 添加 必要 
的 ELF 文 件 读 取 操作 。 正 如 汇编 右 生 成 目标 文件 时 比较 关心 段 表 、 符 号 
表 、 章 定位 表 信 息 那 样 ， 链 接 器 扫描 目标 文件 时 也 会 着 重 关注 这 三 个 文 
件 结构 的 信息 。 参 考 第 6 革 对 ELF 目 标 文件 结构 的 构造 方式 ， 读 取 ELF 目 
标 文 件 结构 的 实现 代码 为 : 




















1 void Elf_ file::readElf 


(const string dir) { 
// 打 开 目 标 文 件 


3 elf_dir=dir; 

4 FILE*fp=fopen(elf_dir.c_ str(),"rb"); 
5 

6 / /文件 头 

7 rewind(fp); 

8 fread(&ehdr 


, Sizeof (El1f32_ Ehdr),1,fp); 
9 


10 / /程序 头 表 

11 if(ehdr.e_ type==ET_ EXEC) { 

12 fseek(fp,ehdr.e_phoff,0); 

13 for(int i=0;i<ehdr.e_phnum;++i) { 

14 Elf32_Phdr*phdr=new El1f32_Phdr(); 
15 fread(phdr,ehdr.e_phentsize,1,fp); 


16 phdrTab 


.push_back(phdr ) ; 
17 } 


18 } 

19 

20 //.Shstrtab 表 杞 

21 Elf32_Shdr shstrTab; 

22 fseek(fp,ehdr.e_shoff+ehdr.e_shentsize*ehdr.e_shstrndx, 0); 
23 fread(&shstrTab,ehdr.e_shentsize,1,fp); 

24 

25 //.shstrtab 

26 char*shstrTabData=new char[shstrTab.sh_sizel]; 
27 fseek(fp,shstrTab.sh_offset, 0); 

28 fread(shstrTabData 


,ShstrTab. sh_size,1.,fp); 


29 

30 // 段 表 

31 fseek(fp,ehdr.e_shoff,0); 

32 for(int i=0;i<ehdr.e_shnum;++i) { 

33 Elf32_Shdr*shdr=new El1f32_Shdr(); 

34 fread(shdr,ehdr.e_shentsize,1,fp); 

35 string name(shstrTabData+shdr->sh_name); 
36 shdrNames 


.push_back(name); 
37 shdrTab 


[name]=shdr; 


38 

39 

40 //.strtab 

41 Elf32_Shdr *strTab=shdrTab[".strtab"]; 

42 char*strTabData=new char[strTab->sh_size]; 
43 fseek(fp,strTab->sh_offset, 0); 

44 fread(strTabData 


,StrTab->sh_size, 1, fp); 


45 

46 //.symtab 

47 Elf32_Shdr *sh_symTab=shdrTab[".symtab"]; 

48 fseek(fp,sh_symTab->sh_offset, 0); 

49 int symNum=sh_symTab->sh_size/sh_symTab->sh_entsize; 
50 for(int i=0;i<symNum;++i) { 

51 Elf32_Sym*sym=new Elf32_Sym(); 

52 fread(sym,sh_symTab->sh_entsize,1,fp); 

53 string name(StrTabData+Sym->st_name ) ， 

54 SymNames 


.push_back(name ) ; 
55 SymTab 


[name]=sym; 
56 


58 //.rel.data .rel.text 

59 for(int i=0;i<shdrNames.size();i++) { 

60 string shdrName = shdrNames[i]; 

61 Elf32_Shdr*shdr=shdrTab[shdrName]; 

62 if(shdr->sh_ type==SHT_REL) { 

63 fseek(fp,shdr->sh_offset, 0); 

64 int relNum=shdr->sh_size/shdr->sh_entsize,; 

65 for(int j=0;j<relNum;++j) { 

66 Elf32_Rel*rel=new Elf32_ Rel(); 

67 fread(rel,shdr->sh_entsize,1,fp); 

68 string segName=shdrNames[shdr->sh_info]; 
69 string symName=symNames[ELF32_R_SYM(rel->r_info)]; 
70 relTab 


.push_back(new RelItem(segName,rel,symName)); 
71 


72 } 

73 } 

74 

75 delete []shstrTabData; 
76 delete []strTabData; 
77 fclose(fp); 

78 } 





我 们 使 用 readElf 孙 数 读 取 ELF 文 件 的 信息 。 





1) 第 2~4 行 打开 目标 文件 ， 并 将 文件 路 径 记 录 到 elf_dir。 
2) 第 6~8 行 读 取 ELF 文 件 头 的 信息 到 ehdr。 


3) 第 10~18 行 读 取 程序 头 表 的 信息 。 虽 然 目标 文件 没有 该 文件 结 
构 ， 但 我 们 还 是 实现 了 这 部 分 的 逻辑 。 即 从 文件 的 e_phoff 偏 移 处 ， 读 取 
e_phentsize 个 Elf32_Phdr 对 象 ， 保 存 到 phdrTab 列 表 即 可 。 





4) 第 20~23 行 读 取 上 段 表 字符 串 表 “.shstrtab” 的 段 表 项 信息 ， 根 据 
e_shstrndx 字 上 段 以 及 段 表 偏 移 和 上 段 表 项 大 小 ， 可 计算 得 到 “.shstrtab” 的 位 
置 ， 然 后 取出 该 段 表 项 对 应 的 Elf32_Shdr 对 象 shstrTab。 





5) 第 25~28 行 读 取 段 表 字 符 串 表 “.shstrtab” 的 数据 内 容 。 即 根据 段 


表 项 shstrTab 记 录 的 段 俩 移 sh_offset 和 段 大 小 sh_size， 读 取 数 据 到 字符 组 
冲 区 shstrTabData。 


6) 第 30~38 行 读 取 段 表 的 信息 。 即 从 文件 的 e_shoff 偏 移 处 ， 读 取 
e_shentsize 个 Elf32_Shdr 对 象 ， 保 存 到 shdrTab 表 即 可 。 其 中 段 名 可 以 从 
shstrTabData 的 sh_name 位 置 获得 ， 我 们 将 段 名 按 序 保存 到 段 名 列表 
shdrNames， 以 方便 段 表 项 的 按 索 引 访 问 。 





7) 第 40~44 行 读 取 字 符 串 表 “.strtab” 的 数据 内 容 。 即 根据 段 表 项 记 
录 的 段 偏 移 sh_offset 和 上 段 大 小 sh_size， 将 文件 中 的 内 容 读 取 到 字符 缓冲 
区 strTabData。 理 论 上 ， 对 字符 串 表 的 访问 方式 应 该 是 根据 段 表 中 扫描 
到 的 重 定位 表 项 〈 段 类 型 为 SHT_REL ) 的 sh_link 字 段 得 到 重 定位 表 引 
用 的 符号 表 的 段 表 索 引 ， 继 而 取出 符号 表 的 段 表 项 ， 然 后 根据 符号 表 的 
段 表 项 的 sh_link 字 段 得 到 符号 表 引 用 的 字符 串 表 的 段 索引 ， 最 终 得 到 字 
符 串 表 的 数据 内 容 。 不 过 ， 我 们 很 清楚 在 汇编 器 生成 的 目标 文件 内 只 有 
唯一 一 个 “.strtab” 段 ， 这 里 直接 按 名 访问 是 一 种 简化 的 方式 ， 后 面 对 符 
号 表 的 访问 与 此 类 似 。 














8) 第 46~56 行 读 取 符 号 表 “.symtab” 的 信息 。 即 从 段 表 项 记录 的 
sh_offset 位 置 ， 读 取 sh_size/sh_entsize 个 Elf32_Shdr 对 象 ， 保 存 到 
symTab。 其 中 符号 名 从 strTabData 的 st_name 位 置 获得 ， 我 们 将 符号 名 按 
序 保 存 到 符号 名 列表 symNames， 以 方便 符号 表 项 的 按 索引 访问 。 











9) 第 58~73 行 读 取 重 定位 表 的 信息 。 通 过 遍历 取出 段 类 型 为 
SHT_REL 的 段 表 项 ， 从 段 表 项 记录 的 sh_offset 位 置 ， 读 取 
sh_size/sh_entsize 个 Elf32_Rel 对 象 。 对 于 每 个 重 定位 表 项 rel， 根 据 当 前 
段 的 sh_info 从 shdrNames 内 取得 重 定位 段 名 segName， 根 据 重 定位 表 项 
的 r_info 取 出 重 定位 符号 在 符号 表 内 的 索引 ， 继 而 从 symNames 内 取得 重 
定位 符号 名 symName。 根 据 以 上 信息 构造 RelItem 对 象 ， 保 存 到 relTab 表 
即 可 。 




















7.1.2 ”上段 数据 信息 


通过 读 取 ELF 可 重 定 位 目标 文件 ， 可 以 将 待 链接 的 目标 文件 信息 保 
存 起 来 。 然 而 ， 链 接 器 处 理 的 对 象 其实 是 目标 文件 内 保存 的 二 进 制 程序 
或 数据 ， 如 代码 段 “.text* 和 数据 段 “.data” 的 内 容 。 因 此 ， 需 要 定义 相关 
的 数据 结构 以 保存 目标 文件 内 的 二 进 制 信息 ， 辅 助 链接 器 的 工作 。 为 了 
保持 描述 的 一 致 性 ， 本 书 将 段 内 保存 的 二 进 制 信息 统称 为 段 数据 。 





工 。// 数 据 块 


2 struct Block 


a char *data,; 

4 unsigned int offset,; // 块 偏 移 

5 unsigned int size; // 块 大 小 
6 }; 


7 
8 // 同 类 型 段 列表 


9 struct SegList 


{ 
10 unsigned int baseAddr; // 基 地 址 
11 unsigned int begin,; // 对 齐 前 


12 unsigned int offset,; / /对 齐 后 偏 移 


13 unsigned int size; // 总 大 小 


14 Vector<E]1f filex*>ownerList， /V 所 有 者 文件 
15 vector<Block*>blocks; / /数据 块 
16 

17 void allocAddr(string name,unsigned inté& base, 

18 unsigned int& off); 

19 void relocAddr (unsigned int relAddr, 

20 unsigned char type, unsigned int symAddr); 

21 } 

22 


23 hash map<string,SegList*,string_hash>segLists 


/ /所 有 合并 段 列 表 





1) 第 1~6 行 定义 Block 类 保存 段 数 据 的 信息 ， 其 中 data 表 示 数 据 块 的 
地 址 ，offset 表 示 数 据 块 经 过 链接 器 处 理 后 在 可 执行 文件 内 的 俩 移 ，size 
表示 数据 块 的 大 小 。 由 于 链接 器 在 重 定位 阶段 需要 段 数据 内 容 ， 因 此 
Block 保 存 的 数据 块 为 重 定 位 操作 提供 了 数据 载体 。 











2) 第 9~21 行 定义 SegList 类 保存 同类 型 段 的 数据 块 和 相关 信息 。 其 
中 baseAddr 表 示 链 接 器 为 合并 后 的 段 分 配 的 虚拟 段 基 地 址 ，begin 表 示 合 
并 后 的 段 在 对 齐 之 前 的 文件 偏 移 ，offset 表 示 对 齐 后 的 文件 偏 移 ，size 表 
示 合 并 后 的 段 大 小 ，ownerList 表 示 包 含 该 类 型 段 的 目标 文件 列表 ， 
blocks 表 示 所 有 的 当前 段 类 型 的 段 数据 列表 。 函 数 alocAddr 用 于 段 的 地 
址 空间 分 配 操作 ，relocAddr 用 于 重 定 位 操作 。SegList 对 象 保 存 的 信息 方 











便 了 链接 器 的 段 地 址 空间 分 配 工作 。 


3) 第 23 行 定义 的 segLists 对 象 保 存 了 所 有 类 型 的 SegList 对 象 。 由 于 
在 汇编 器 阶段 仅 生 成 了 两 种 类 型 的 段 : “.text” 段 和 “.data" 段 ， 因 此 在 简 
化 的 链接 器 的 实现 中 ，segLists 对 象 其 实 只 有 两 个 元 素 。 








为 了 方便 对 段 数据 信息 相关 数据 结构 的 理解 ， 我 们 使 用 一 个 简单 的 
例子 说 明 。 


如 图 7-1 所 示 ， 和 链接 右 会 将 同名 的 段 合 并 ， 如 “.text”* 段 和 “.data” 段 。 
深 色 部 分 表示 目标 文件 内 段 的 二 进 制 数据 ，Block 对 象 会 记录 该 数据 的 
内 容 、 大 小 以 及 合并 后 的 偏 移 。 比 如 目标 文件 8.o 和 b.o 的 “.text”* 段 会 被 合 
并 为 可 执行 文件 的 “.text* 段 。 合 并 后 的 段 内 包含 原始 的 段 内 二 进 制 数 据 
和 因为 段 对 齐 产生 的 段 内 填充 数据 。 段 内 对 齐 会 根据 目标 文件 内 保存 的 
段 对 齐 字 段 sh_align 进 行 ， 如 文件 b.o 的 “.text* 的 偏 移 会 根据 4 字 节 对 齐 。 
合并 后 的 段 也 需要 根据 可 执行 文件 对 段 的 对 齐 要 求 进行 对 齐 ， 如 最 终 
的 “.text” 段 的 偏 移 会 按照 链接 器 要 求 的 16 字 节 进 行 对 齐 〈( 其 他 类 型 的 
段 ， 如 数据 段 仍 是 按照 4 字 节 对 齐 ) 。 对 齐 前 的 文件 偶 移 保存 在 
SegList: : begin 内 ， 以 方便 可 执行 文件 生成 时 对 段 间 的 间 际 进行 填 
证 











. Block:: offset ee 
段 间 填充 i J<—Block: size 一 >| wz 一 段 内 填充 


[有 | | eo text | [Dro7 cent] [oro7roaca] | 





<—————— SeeList:: Slze 一 -> 
SegList:: begin | . 
SegList:: offset 


.text 段 .data 段 
图 7-1 ”上段 数据 组 织 
由 于 同类 型 的 段 数据 被 保存 在 SegList 的 对 象 中 ， 因 此 当 需 要 对 有 段 的 


数据 内 容 进 行 重 定位 《修改 数据 ) 操作 时 ， 只 需要 根据 重 定位 的 侦 移 地 
址 找到 对 应 的 数据 块 ， 然 后 修改 对 应 的 数据 即 可 。 





7.1.3 ”符号 引用 信息 


除了 对 目标 文件 的 段 数据 进行 重新 组 织 ， 链 接 器 还 需要 分 析 目 标 文 
件 内 符号 的 引用 情况 。 之 所 以 要 分 析 符 号 的 引用 信息 ， 古 因为 在 链接 器 
处 理 的 目标 文件 中 ， 存 在 未 定义 的 符号 ， 即 对 其 他 目标 文件 符号 的 引 
用 。 为 了 方便 链接 器 符号 解析 的 处 理 ， 一 般 会 定义 两 个 符号 集合 : 一 个 
是 导出 符 写 集 合 ， 表 示 所 有 目标 文件 内 定义 的 可 以 被 其 他 目标 引用 的 全 
局 符号 集合 ， 忆 一 个 是 导入 符号 集合 ， 表 示 所 有 目标 文件 未 定义 却 引用 
目标 文件 的 符号 集合 。 




















工 。// 符 号 引用 对 象 


2 Struct SymLink { 
3 string name ; / /符号 名 


4 EIf filexrecv; // 引 用 符号 文件 
B Elf_file*prov; / /提供 符号 的 文件 
6 }; 

7 


8 vector<SymLink*>symLinks 








// 所 有 符号 引用 信 








证 





9 vector<SymLink*>symDef 


/ /所 有 符号 定义 信息 





1) 第 1~6 行 定义 了 SymLink 对 象 记录 符 写 引用 的 信息 ， 其 中 name 为 
符号 名 ，recv 为 引用 符号 的 目标 文件 ，prov 为 定义 符号 的 目标 文件 。 


2) 第 8~9 行 的 symLinks 表 示 导 入 符号 的 集合 ，symDef 表 示 导 出 符号 
集合 。 


如 图 7-2 所 示 ， 在 目标 文件 ao 内 定义 了 全 局 符号 var 和 main， 在 目标 
文件 b.o 内 定义 了 全 局 符号 ext 和 fun， 这 些 符 号 所 在 的 段 已 经 在 符号 名 前 
标明 ， 链 接 器 会 将 这 四 个 全 局 符号 放 入 导出 符号 集合 。 另 外 ， 目 标 文件 
ao 的 符号 表 内 还 保存 了 未 定义 符号 ext 和 fun， 目 标 文件 b.o 的 符号 表 内 也 
保存 了 未 定义 符号 var， 链 接 器 将 这 三 个 未 定义 符号 放 入 导入 符号 集 
合 。 经 过 链接 器 的 符号 解析 处理 后 ， 会 为 每 个 导入 符号 找到 定义 它 的 日 
标 文件 。 例 如 ，a.o 中 ext 和 fun 符 写 的 定义 在 b.o 文 件 内 ， 以 及 b.o 中 var 和 从 
号 的 定义 在 a.o 文 件 内 。 





图 7-2 ”符号 引用 


7.2 ”地 址 空间 分 配 


汇编 器 生成 目标 文件 时 ， 由 于 无 法 确定 段 的 加 载 地 址 ， 因 此 默认 将 
段 基 址 设置 为 0。 链 接 器 的 第 一 步 工 作 便 是 确定 需要 加 载 段 的 段 基 址 ， 
为 符 加 载 段 指定 段 基 址 的 过 程 称 为 地 址 空间 分 配 。 


链接 器 为 段 指定 基 址 ， 需 要 从 三 个 方面 进行 考虑 。 


1) 段 加 载 的 起 始 地 址 。 该 地 址 是 所 有 加 载 段 的 起 始 位 置 ， 在 32 位 
Linux 系 统 中 ， 一 般 设 置 为 0x08048000。 


2) 段 的 拼接 顺序 。 链 接 器 按 序 扫描 目标 文件 内 同名 的 段 ， 并 将 段 
的 二 进 制 数据 依 次 “ 摆 放 ”。 在 我 们 实现 的 链接 需 中 ， 只 需要 按照 代码 
段 “.text*、 数 据 段 “.data” 的 顺序 ， 依 次 处 理 每 个 目标 文件 内 该 类 型 的 段 
印 可 。 


3) 段 对 齐 方式 。 段 对 齐 包含 两 个 层面 : 段 文 件 偶 移 的 对 齐 和 段 基 
址 的 对 齐 。 在 可 重 定位 的 目标 文件 内 ， 一 般 将 段 的 文件 侦 移 对 齐 设置 为 
4 字 节 ， 不 考虑 段 基 址 的 对 齐 〈 段 基 址 都 是 0， 没 有 对 齐 的 意义 ) 。 而 在 
可 执行 文件 内 ， 会 将 代码 段 “.text” 的 文件 偏 移 对 齐 设置 为 16 字 节 ， 其 他 
段 的 文件 偏 移 对 齐 方式 仍 默 认为 4 子 市 。 而 段 基 址 的 对 齐 则 比较 复 林 ， 
需要 保证 段 的 线性 地 址 与 段 对 应 文件 偏 移 相 对 于 段 对 齐 值 〈“ 即 页 面 大 














小 ，Linux 下 默认 为 4096 字 市 ) 取 模 相等 。 此 处 可 参考 第 5 章 关 于 程序 头 
表 内 段 对 齐 字 段 p_align 的 解释 。 








图 7-3 给 出 了 一 个 地 址 空间 分 配 的 例子 。 目 标 文 件 a.o 的 代码 段 大 小 
为 0x4a 字 节 ， 数 据 段 大 小 为 0x08 字 节 ，b.o 的 代码 段 大 小 为 0x21 字 节 ， 数 
据 段 大 小 为 0x04 字 节 。 


首先 确定 段 的 文件 偏 移 。 根 据 前 面 的 描述 ， 链 接 器 会 将 ao 的 代码 
段 、b.o 的 代码 段 、a.o 的 数据 段 、b.o 的 数据 段 依次 “ 摆 放 ”。 基 于 该 顺 
序 ， 可 以 确定 每 个 段 的 文件 偏 移 。 在 可 执行 文件 的 代码 段 之 前 ， 还 有 文 
件 头 和 程序 头 表 结构 。 其 中 文件 头 占用 52 字 节 ， 程 序 头 表 包 含 两 个 表 项 
《分 别 用 于 加 载 代 码 段 和 数据 段 ) ， 占 用 2xsizeof (Elf32_Phdr) 
=2x32=64 字 节 ， 因 此 代码 段 的 文件 信 移 为 52+64=116 字 节 (0x74) 。 考 
虑 到 可 执行 文件 代码 段 的 文件 偏 移 需 要 按 16 字 节 对 齐 ， 因 此 最 终 确 定 的 
代码 段 文件 偏 移 为 0x80。 基 于 此 ， 确 定 a.o 的 代码 段 文件 偏 移 为 0x80。 
b.o 的 代码 段 文件 偏 移 为 0x80+0x4a=0xca， 按 照 4 字 节 (目标 文件 段 表 内 
段 表 项 的 sh_align=4) 对齐 后 为 0xcc。 依 此 类 推 ， 得 到 a.o 的 数据 段 文件 
偏 移 为 0xf0，b.o 的 数据 段 文 件 偏 移 为 0xf8。 





接着 ， 根 据 段 的 文件 偏 移 确定 段 基 址 。 从 默认 的 段 加 载 起 始 地 址 
0x08048000 开 始 ， 计 算 代码 段 和 数据 段 的 基 址 。 将 起 始 地 址 按照 页 大 小 
4096 字 节 (0x1000〉 对 齐 为 0x08048000， 然 后 累加 代码 段 文件 偏 移 相对 
于 页 大 小 的 模 值 0x80%0x1000=0x80， 得 到 代码 段 的 最 终 基 址 为 


0x08048080。 基 于 此 ， 得 到 a.o 的 代码 段 的 基 址 为 0x08048080，b.o 的 代 
码 段 的 基 址 为 0x080480cc， 代 码 段 结束 位 置 的 虚拟 地 址 为 0x080480ed。 
接 下 来 处 理 数据 段 ， 将 代码 段 的 结束 位 置 的 虚拟 地 址 按照 页 大 小 对 齐 后 
为 0x08049000， 累 加 数据 段 文 件 偏 移 相 对 于 页 大 小 的 模 值 
0xf0%0x1000=0xf0， 得 到 数据 段 的 最 终 基 址 为 0x080490f0。 基 于 此 ， 得 
到 a.o 的 数据 段 基 址 为 0x080490f0，b.o 的 数据 段 基 址 为 0x080490f8。 


section .+ex+ section .text section .text+ 
main: fun: 
call fun 


section .data 
ext dd 0 








mov eax,[exf] mov eax [exf] 
mov [var ] eax mov [var],eax 


文件 b.o 


文件 a.o 


var dd1 
section .data 
ext dd 0 


图 7-3 ”地 址 空间 分 配 





根据 以 上 的 描述 ， 链 接 器 对 地 址 空间 分 配 算法 的 实现 为 : 





1 #define BASE_ADDR 


Ox08048000 / /默认 加 载 地 址 


2 #define MEM ALIGN 


4096 / /默认 内 存 对 齐 大 小 


3 #define DISC_ALIGN 


4 / /默认 磁盘 对 齐 大 小 


4 #define TEXT_ALIGN 


16 // ,teXt 段 对 齐 大 小 


5 
6 void Linker::allocAddr 


() I 

7 unsigned int curAddr=BASE_ADDR; 

8 unsigned int curOff=52+ 

9 sizeof(Elf32_Phdr)*segNames.size(); 
10 for(int i=0;i<segNames.size();++i) { 

11 segLists[segNames[i]]->allocAddr(segNames[i], 
12 curAddr, curoff); 

13 } 

14 } 

15 


16 void SegList::allocAddr 


(string name,unsigned int& base, 
17 unsigned int& off) { 
18 begin=off,; 


20 int align=DISC_ALIGN; 

21 if(name==".text") align=TEXT_ALIGN; 

22 off+=(align-off%align)%align; 

23 base+=(MEM ALIGN-base%MEM_ ALIGN)%MEM ALIGN 
24 +Off%MEM_ALIGN; 


26 baseAddr=base; 


27 offset=off; 


28 size=0,; 


29 

30 for(int i=0;i<ownerList.size();++i) { 

31 Elf32_Shdr*seg=ownerList[i]->shdrTab[name]; 
32 int sh_align=seg->sh_align,; 


33 size+=(sh_align-size%sh_align)%sh_align; 


//E 


//E 


35 char* buf=new char[seg->sh_sizel]; / / 段 数据 

36 ownerList[i]->getData(buf,seg->sh_offset, seg->sh_size),; 

37 blocks.push_back(new Block(buf,size,seg->sh_ size)); 

38 

39 seg->sh_addr=base+size,; // 段 基 址 

40 size+=seg->sh_size, / /累加 段 内 1 
41 


42 base+=size; 


43 off+=size; 


44 } 
45 
46 void Elf_ file::getData 


(char*buf,E1Lf32_Off offset, 

47 Elf32 Word size) { 

48 FILE*fp=fopen(elf_dir,"rb"); 
49 rewind(fp); 

50 fseek(fp,offset,O0); 

51 fread(buf,size,1,Tfp); 

52 fclose(fp); 





1) 第 1~4 行 定义 了 链接 器 使 用 的 常量 : 默认 段 加 载 起 始 地 址 、 内 存 
对 齐 大 小 、 文 件 对 齐 大 小 、 代 码 段 对 齐 大 小 。 

2) 第 6~14 行 是 为 链接 器 进行 地 址 空间 分 配 的 主流 程 。 首 先 将 
curAddr 初 始 化 为 段 加 载 起 始 地 址 〈0x08048000) ，curOff 为 段 起 始 文件 


偏 移 (ELF 文 件 头 + 程序 头 表 大 小 ) 。 然 后 根据 段 名 列表 〈 包 
售 “.text” 和 “.data”) 对 每 个 段 类 型 进行 地 址 空间 分 配 。 


3) 第 16~44 行 处 理 每 个 类 型 段 的 地 址 空间 分 配 。 





4) 第 18~28 行 首先 将 对 齐 前 的 文件 侦 移 记录 到 begin 字 段 ， 然 后 根 
据 对 齐 字 段 align《〈 黑 认为 4， 处 理 代码 段 时 设 为 16) 修正 文件 侦 移 off， 
接着 使 对 齐 段 基 址 base 与 文件 偏 移 字 段 相 对 于 页 大 小 取 模 的 值 相等 ， 最 
后 将 以 上 信息 保存 到 SegList 对 象 的 字段 中 。 其 中 size 字 段 既 表示 合并 后 
段 的 大 小 ， 也 表示 处 理 的 目标 文件 的 段 偏 移 。 











5) 第 30~41 行 处 理 目 标 文件 的 段 。 首 先 取出 被 处 理 的 段 的 段 表 项 信 
咏 ， 根 据 段 对 齐 字 上段 sh_align 对 段 偏 移 size 对 齐 修正 。 然 后 调用 getData 也 
数 从 目标 文件 的 sh_offset 位 置 取 出 sh_size 长 度 的 数据 到 buf， 基 于 这 些 信 
恩 构 建 Block 对 象 并 将 其 添加 到 数据 块 列表 。 计 算 段 的 基 址 并 将 其 写 回 
目标 文件 的 段 表 项 ， 将 当前 段 的 大 小 累加 到 段 偏 移 size。 





6) 第 42~43 行 将 合并 后 的 段 大 小 累加 到 基 址 字段 base， 同 时 将 段 大 
小 累加 到 文件 偏 移 字段 off， 为 下 一 个 类 型 的 SegList 的 地 址 空间 分 配 提 
供 起 始 地 址 和 偏 移 信息 。 


7) 第 46~53 行 描述 了 getData 函 数 的 实现 ， 即 根据 调用 参数 读 取 目 标 
文件 offset 处 开始 长 度 为 size 的 数据 到 缓存 buf。 


经 过 以 上 的 处 理 ， 所 有 目标 文件 内 需要 加 载 的 段 基 址 都 被 计算 出 
来 ， 地 址 空间 分 配 的 工作 结束 。 


7.3 ”符号 解析 





和 从 写 解析 的 主要 目的 是 计算 目标 文件 内 符 写 的 线性 地 址 ， 即 可 执行 
文件 被 加 载 到 进程 内 存 空间 之 后 符号 的 虚拟 地 址 。 目 标 文件 符号 表 内 保 
存 了 每 个 定义 的 符号 相对 于 所 在 段 基 址 的 偏 移 ， 当 有 段 的 地 址 空间 分 配 结 
束 后 每 个 段 的 基 址 都 被 确定 下 来 ， 因 此 符号 地 址 可 以 使 用 如 下 公式 计 
算 ; 


符号 地 址 = 段 基 址 + 符号 相对 段 基 址 的 偏 移 


不 过 在 计算 符号 地 址 之 前 ， 仍 需要 做 一 些 准备 工作 。 首 先 需要 扫描 
目标 文件 内 的 符号 表 ， 获 取 符 号 的 定义 与 引用 的 信息 ， 即 7.1 市 摘 述 的 
导出 符号 集合 和 导入 符号 集合 。 其 次 ， 震 要 对 导入 符号 集合 和 导出 符号 
集合 进行 合法 性 验证 。 符 号 验证 包含 两 个 方面 : 

1) 符号 重 定义 : 即 导 出 符号 集合 存在 同名 的 符号 。 由 于 目标 文件 


链接 时 ， 对 符号 的 处 理 是 按 名 检索 的 方式 ， 符 号 重 定义 将 导致 引用 该 符 
号 的 文件 无 法 确定 应 该 具体 使 用 哪个 符号 。 








2) 符号 未 定义 : 即 导 入 符号 集合 包含 导出 集合 不 存在 的 符号 。 当 
目标 文件 引用 的 外 部 符号 在 其 他 目标 文件 内 找 不 到 对 应 的 定义 时 ， 就 无 
法 确定 符号 的 地 址 。 





一 旦 出 现 符号 重 定义 或 未 定义 的 情况 ， 链 接 需 的 工作 融 无 法 继续 进 
行 。 因 此 ， 我 们 将 符 扎 解析 分 为 两 个 阶段 : 符号 引用 验证 和 符号 地 址 解 
析 。 只 有 符号 引用 验证 通过 后 ， 才 继续 符号 地 址 解析 的 流程 。 


图 7-4 描 述 了 符 吕 解 析 的 流程 。 


1) 符号 解析 开始 时 ， 定 义 了 两 个 空 集 。Export 表 示 导 出 符号 集 


合 ，Import 表 示 导 入 符号 集合 。 


-> 


2) 扫 摘 所 有 目标 文件 符号 表 的 所 有 符号 ， 如 果 符 号 是 导出 符号 且 
不 在 导出 符号 集合 Export 内 ， 则 将 符号 添加 到 Export 集 合 ， 侣 则 报告 
号 重 定义 错误 ， 退 出 符号 解析 流程 。 如 果 符 号 是 导入 符号 ， 则 将 符号 添 
加 到 导入 符号 集合 Import。 


3) 所 有 的 目标 文件 符号 表 扫 描 结 束 后 ， 计 算 导 入 符号 集合 Import 
与 导出 符号 集合 的 差 集 Undef。Undef 集 合 记 录 了 所 有 未 定义 的 符号 集 
合 ， 只 有 该 集合 为 空 时 才 继 续 计算 导入 符号 集合 Export 内 符号 的 地 址 。 
否则 Undef 内 的 所 有 符号 都 是 未 定义 符号 ， 需 要 退出 符号 解析 流程 。 














Undef=Import - Export 





计算 Export 
内 符号 地 址 





图 7-4 ”符号 解析 流程 


由 于 符号 解析 依赖 于 导入 符号 和 导出 符号 这 两 个 集合 ， 首 先 看 这 两 
个 集合 的 构造 。 





1 void Linker::collectInfo() { 

2 for(int i=0;i<elfs.size();++i) { 
3 Elf_file*elf=elfs[i]; 

4 / /记录 段 表 信息 


for(int i=0;i<segNames.size();++i) { 
if(elf->shdrTab.find(segNames[i]) 
!= elf->shdrTab.end()){ 
segLists[segNames[i]]->ownerList.push_ back(elf); 


co ~ OO JI 


10 } 

11 / /记录 符号 引用 信息 

12 for(hash_map<string,Elf32_ Sym*,string_hash>::iterator 

13 symIt=elf->symTab .begin()， 

14 symIt!=elf->symTab.end();++symIt) { 

15 if(ELF32_ST_BIND(symIt->second->st_info) 

16 == STB_GLOBAL) { 

17 SymLink*symLink=new SymLink(); 

18 symLink->name=symIt->first; / /符号 
19 if(symIt->second->st_shndx==STN_UNDEF) { / /导入 
20 symLink->recv=elf; // 
21 symLink->prov=NULL; // 
22 symLinks.push_back(symLink); 

23 } 

24 else { 

25 symLink->recv=NULL; // 
26 symLink->prov=elf; // 
27 symDef .push_back(symLink); 

28 

29 } 

30 } 

31 

32 } 





函数 collectInfo 用 于 收集 目标 文件 的 信息 。 第 3~10 行 扫 揪 了 目标 
文件 的 段 信息 ， 将 ELF 文 件 对 象 放 入 段 地 址 空间 分 配 使 用 的 数据 结构 
segList 中 。 


2) 第 11~30 行 扫描 目标 文件 内 符号 的 信息 。 对 于 每 个 ELEF 目 标 文 


件 ， 只 处 理 符号 表 中 标识 为 STB_GLOBAL 的 全 局 类 型 的 符号 。 对 于 符 
号 解析 来 说 ， 并 不 关心 局 部 符号 的 信息 。 这 里 岔 开 一 个 话题 ， 在 ELF 目 
标 文件 的 段 表 项 数据 结构 中 ， 符 号 表 段 表 项 的 sh_info 字 段 记录 了 符号 表 
内 第 一 个 全 局 符号 的 索引 。 链 接 器 可 以 直接 从 这 个 索引 位 置 开 始 扫描 符 
号 表 ， 获 取 所 有 的 全 局 符号 。 不 过 我 们 在 汇编 器 生成 目标 文件 时 ， 强 制 
将 该 字段 设 为 0， 因 此 必须 对 符号 表 全 部 扫描 。 

















3) 第 18 行 记录 符号 名 到 symLink 对 象 。 


4) 第 19~23 行 处 理 导 入 符号 集合 ， 即 将 引用 该 符号 的 ELF 文 件 对 象 
记录 到 symLink 对 象 的 recv 字 段 ， 由 于 并 不 知道 哪个 目标 文件 定义 了 该 





5) 第 24~28 行 处 理 导出 符号 集合 ， 即 将 定义 该 符 写 的 ELF 目 标 文件 
对 象 记录 到 symLink 对 象 的 prov 字 段 ， 由 于 一 个 符号 可 能 会 被 多 个 目标 
文件 引用 ， 因 此 recv 字 段 设 置 为 空 ， 最 后 将 symLink 对 象 记录 到 导出 符 


号 集合 symDef 。 





有 了 导出 符号 集合 和 导入 符号 集合 ， 接 下 来 便 可 以 进行 符号 引用 验 
人 


7.3.1 符号 引用 验证 





根据 前 面 对 符 号 解析 流程 的 描述 ， 可 以 很 容易 实现 符号 引用 验证 算 
法 。 不 过 ， 在 说 明 符 和 号 验证 算法 实现 之 前 先 说 明 一 个 细节 问题 。 我 们 知 
道 ， 目 标 文件 和 可 执行 文件 有 一 个 很 大 的 区 别 : 目标 文件 的 文件 头 的 程 
序 入 口 点 e_entry 字 段 为 0， 而 可 执行 文件 的 程序 入 口 点 是 一 个 线性 地 
址 。 这 里 我 们 需要 先 假定 程序 的 入 口 地址 被 记录 到 一 个 名 为 “@start” 的 
符号 内 ， 显 然 这 个 符号 不 可 能 是 编译 器 生成 的 符号 名 。 为 了 保证 链接 器 
可 以 找到 程序 入 口 点 ， 那 么 符号 引用 验证 阶段 必须 强制 要 求 导 
出 “@start”* 符 号。 人 至于“@start” 符 写 的 提供 者 ， 可 以 暂时 认为 来 源 于 一 个 
已 有 的 目标 文件 。 关 于 程序 入 口 点 的 讨论 会 在 7.5 节 详细 展开 。 








基于 以 上 的 讨论 ， 符 号 引用 验证 的 算法 实现 为 : 





1 #define START 


"@start" 
2 


3 bool Linker::symValid 


() I 

4 bool flag=true; 

5 startOowner=NULL,; 

6 for(int i=0;i<symDef.size();++i) { 
7 / /记录 入口 点 

8 if(symDef[i]->name==START 

) 荆 


9 startOwner=symDef[i]->prov; 


11 for(int j=i+1;j<symDef.size();++j) { 


12 // 符 号 重 定义 

13 if(symDef[i]->name==symDef[j]->name) { 
14 printf("symbol %s redefinition in %s and %s.\n", 
15 symDef[i]->name.c_str(), 
16 symDef[i]->prov->elf_dir, 
17 symDef[j]->prov->elf_dir 
18 ); 

19 flag=false,; 

20 

21 } 

22 





Th 


} 
23 // 找 不 到 入 口 点 











24 if(startOwner==NULL) { 

















25 printf("can not find entrypoint Symbol %s.\n",START); 
26 flag=false,; 

27 

28 for(int i=0;i<symLinks.size();++i) { 

29 for(int j=0;j<symDef.size();++]j]) { 

30 / /记录 符号 引 

31 if(symLinks[i]->name==symDef[j]->name) { 
32 symLinks[i]->prov=symDef[j]->prov; 
33 break; 

34 } 

35 } 

36 // 符 号 未 定义 

37 if(symLinks[i]->prov==NULL) { 

38 printf("undefined Symbol %s in %s.\n", 
39 symDef[i]->name.c_str(), 

40 symLinks[i]->recv->elf_dir 

41 ); 

42 flag=false,; 

43 

44 } 

45 return flag; 

46 } 





1) 第 7~10 行 在 导出 符号 集合 内 搜索 名 为 STARI 的 符号 ， 如 果 找 不 
到 该 符号 则 在 第 23~27 行 报告 “ 找 不 到 程序 入 口 点 ”链接 错误 。 





2) 第 11~21 行 搜索 导出 集合 内 是 人 否 有 重 名 的 符号 ， 一 旦 出 现 重 名 符 
号 ， 则 报告 “符号 重 定 义 ” 链 接 错 误 ， 并 指出 符号 冲突 的 目标 文件 。 





3) 第 28~44 行 处 理 符 号 引用 的 情况 。 第 29~35 行 找 出 导出 符号 集合 
与 导入 符号 集合 都 包含 的 符号 ， 这 属于 符号 引用 找到 了 符号 定义 。 因 此 
将 符号 在 导入 符号 集合 的 symLink 对 象 的 prov 字 上 段 记 录 为 定义 符号 的 目 
标 文 件 ， 即 符号 在 导出 符号 集合 的 symLink 对 象 的 prov 字 段 所 指示 的 目 
标 文件 内 。 


4) 第 36~43 行 处 理 符 写 未 定义 的 情况 。 如 果 扫 描 完 导出 符号 集合 都 
没有 找到 被 导入 的 符号 ， 则 报告 “符号 未 定义 ”链接 错误 ， 并 给 出 引用 符 
号 的 目标 文件 。 





符号 引用 验证 函数 symValid 调 用 结束 后 ， 如 果 返 回 true 则 继续 符号 
解析 的 流程 ， 否 则 终止 链接 器 的 工作 


7.3.2 ”符号 地 址 解析 


符号 引用 验证 过 程 中 除了 对 导入 符号 集合 和 导出 符号 集合 进行 合法 
性 验证 之 外 ， 还 “顺便 ”记录 了 定义 导入 符号 的 目标 文件 ， 以 方便 对 符号 
地 址 进行 解析 。 


具体 来 说 ， 符 号 地 址 解析 分 为 两 个 步骤 : 
1) 扫描 所 有 ELEF 目 标 文 件 的 本 地 符号 ， 计 算 本 地 符号 的 地 址 。 


2) 扫描 所 有 导入 集合 的 符号 ， 将 符号 地 址 传递 到 引用 该 符 吕 的 目 
标 文 件 的 符号 表 内 。 





1 void Linker::symParser 


( 
2 for(int i=0;i<elfs.size();++i) { 

3 Elf_file*elf=elfs[i]; 

4 for(hash_map<string,Elf32_ Sym*,string_hash>::iterator 
5 symIt=elf->symTab .begin(); 

6 symIt!=elf->symTab.end();++symIt) { 

7 // 所 有 本 地 符号 


8 Elf32_Sym*sym=symIt->second; 

9 if(sym->st_shndx!=STN_UNDEF) { 

10 string segName=elf->shdrNames[sym->st_shndx]; 
11 sym->st_value+=elf->shdrTab[segName]->sh_addr; 
12 

13 } 

14 } 

15 

16 for(int i=0;i<symLinks.size();++i) { 

17 // 所 有 符号 引用 

18 string name = symLinks[i]->name; 


19 Elf32_Sym*provsym=symLinks[i]->prov->symTab[name]; 


20 Elf32_Sym*recvsym=symLinks[i]->recv->symTab[name]; 
21 recvsym->st_value=provsym->st_value; 





1) 函数 symParser 执 行 符号 地 址 解析 的 流程 。 第 2~14 行 计算 每 个 目 
标 文件 的 本 地 符号 地 址 。 即 根据 符号 表 项 提供 的 段 索 引 st_shndx 找 到 对 
应 的 段 表 项 ， 然 后 取出 段 基 址 sh_addr， 累 加 到 原 有 的 符号 地 址 〈 符 号 段 
偏 移 ) st_value 中 ， 得 到 符号 的 线性 地 址 。 





2) 第 16~22 行 处 理 符 号 引用 的 情况 。 符 号 引用 验证 函数 symValid 已 
经 统计 了 每 个 符号 引用 所 对 应 的 符号 引用 文件 和 符号 定义 文件 ， 并 且 在 
第 一 步 中 算出 了 所 有 已 定义 的 符号 的 地 址 ， 因 此 直接 取出 目标 文件 中 的 
符号 表 项 provsym 和 recvsym， 最 后 将 provsym 的 符号 地 址 传递 给 recvsym 
即 可 。 


至 此 ， 得 到 了 所 有 目标 文件 中 符号 的 虚拟 地 址 ， 符 写 解析 工作 完 
成 。 


7.4 重 定 位 





回顾 第 6 草 对 重 定位 表 信 息 生 成 的 描述 ， 目 标 文件 的 重 定位 信息 包 
售 三 个 关键 的 元 素 : 重 定位 符号 一 一 使 用 哪个 符号 的 地 址 进行 重 定 位 ; 
重 定位 位 置 一 一 在 何 处 进行 重 定位 ; 重 定位 类 型 一 一 用 何 种 方法 进行 重 


定位 。 














首先 ， 由 于 重 定 位 操作 依赖 于 重 定 位 符号 的 地 址 ， 因 此 在 符号 解析 
完成 前 是 无 法 进行 重 定位 的 。 重 定位 符号 已 经 在 收集 ELF 文 件 信息 时 记 
录 到 RelItem 的 relName 字 段 内 。 





其 次 ， 重 定位 位 置 可 以 根据 重 定位 段 以 及 重 定 位 位 置 的 段 内 偏 移 计 











重 定位 位 置 = 重 定位 段 基 址 + 重 定位 位 置 的 段 内 偏 移 





重 定位 段 已 经 在 收集 ELF 文 件 信息 时 记录 到 RelItem 的 segName 字 段 
内 ， 根 据 段 名 可 以 取得 段 表 项 对 象 ， 继 而 获得 段 基 址 。 至 于 重 定位 位 置 
的 段 内 偏 移 可 以 由 RelItem 的 rel 字 上 段 获得 。 





最 后 ， 重 定位 类 型 有 两 种 : 绝对 地 址 重 定 位 和 相对 地 址 重 定位 。 根 
据 不 同 的 重 定 位 类 型 对 段 数据 进行 修正 操作 是 重 定位 的 核心 。 








绝对 地 址 重 定位 操作 比较 简单 ， 需 要 绝对 地 址 重 定位 的 地 方 一 般 痢 
是 源 于 对 符号 地 址 的 直接 引用 ， 由 于 汇编 占 不 能 确定 符号 的 虚拟 地 址 ， 
最 终 使 用 0 作为 占 位 符 填 充 了 引用 符 写 地 址 的 地 方 。 因 此 ， 绝 对 地 址 重 
定位 操作 只 需要 直接 填写 重 定 位 符号 的 虚拟 地 址 到 重 定 位 位 置 即 可 。 











绝对 重 定位 地 址 = 重 定位 符号 地 址 





相对 地 址 重 定位 稍微 复杂 一 点 ， 需 要 相对 地 址 重 定位 的 地 方 一 般 都 
是 源 于 跳 转 类 指令 引用 了 其 他 文件 的 符号 地 址 。 虽 然 汇 编 占 不 能 确定 被 
引用 符号 的 虚拟 地 址 ， 但 是 并 不 使 用 0 作为 占 位 符 填 充 引 用 符号 地 址 的 
地 方 ， 而 是 使 用 “ 重 定位 位 置 相 对 于 下 一 条 指令 地 址 的 仿 移 "填充 该 位 
置 。 链 接 器 进行 相对 地 址 重 定位 操作 时 ， 会 计算 符号 地 址 相对 于 重 定位 
位 置 的 偏 移 ， 然 后 将 该 偏 移 量 毗 加 到 重 定位 位 置 保存 的 内 容 。 这 么 说 起 
来 有 扣 绕 ， 其 实 本 质 上 仪 仪 是 计算 的 转换 而 已 。 








相对 重 定位 地 址 = 重 定位 符号 地 址 - 重 定位 位 置 + 重 定位 位 置 数据 内 





=《 重 定位 符号 地 址 - 重 定 位 位 置 ) + 〈 重 定位 位 置 -下 一 条 指令 地 
址 ) 


= 重 定位 符号 地 址 -下 一 条 指令 地 址 


根据 上 面 的 计算 ， 可 以 很 清晰 地 看 出 最 终 计算 的 相对 重 定位 地 址 正 


是 符号 地 址 相对 于 下 一 条 指令 地 址 的 偏 移 ， 也 正 符合 跳 转 类 指令 对 操作 
数 的 要 求 。 





至 于 为 何 对 相对 地 址 重 定位 进行 如 此 “繁琐 ”的 计算 ， 笔 者 认为 按照 
这 样 的 方式 ， 对 于 不 同 长 度 和 设计 结构 的 指令 ， 只 要 重 定位 位 置 的 数据 
按照 相对 地 址 的 方式 进行 修正 ， 那 么 相对 重 定位 地 址 的 计算 方式 不 变 ， 
区 别 仅仅 是 重 定位 位 置 处 的 数据 的 值 不 同 。 比 如 对 于 Intel32 位 跳 转 指 令 
该 位 置 数 据 值 是 -4， 对 于 Intel64 位 跳 转 指令 该 位 置 数据 值 是 -8。 


下 面 结合 一 个 例子 描述 重 定位 的 过 程 。 








如 图 7-5 所 示 ， 重 定位 表 内 有 三 个 重 定位 项 ， 第 一 项 是 相对 地 址 重 
定位 类 型 ， 剩 余 两 项 是 绝对 地 址 重 定位 类 型 。 





section .text 


La 
27 


var dd 1 01 00 00 00 


section .data 


ext dd 0 








图 7-5 重 定 位 











对 于 第 一 个 重 定位 项 ， 重 定位 符号 fun 符 号 解析 后 的 地 址 是 
0x080480cc， 重 定位 位 置 是 代码 段 “.text” 的 基 址 加 上 重 定位 位 置 的 段 内 
偏 移 ， 即 0x08048080+0x21=0x080480al， 此 处 保存 的 数据 值 是 -4。 根 据 
相对 重 定位 地 址 的 计算 方法 0x080480cc-0x080480al+ (-4) =0x27， 即 
最 终 的 fun 地 址 相对 于 call 指 令 下 一 条 指令 地 址 0x080480a5 的 偏 移 。 

















对 于 第 二 个 重 定位 项 ， 重 定位 符号 ext 符 号 解析 后 的 地 址 是 
0x080490f8， 重 定位 位 置 是 代码 段 “.text”* 的 基 址 加 上 重 定位 位 置 的 段 内 
偏 移 ， 即 0x08048080+0x38=0x080480b8， 此 处 保存 的 数据 值 是 0(。 根 据 
绝对 重 定位 地 址 的 计算 方法 ， 此 处 直接 修改 为 0x080490f8， 即 ext 的 地 址 
即 可 。 类 似 地 ， 对 于 第 三 个 重 定位 项 的 处 理 不 再 袭 述 ， 需 要 注意 的 是 ， 
无 论 是 绝对 地 址 还 是 相对 地 址 ， 都 是 以 小 字 节 序 的 方式 保存 的 。 




















重 定位 操作 的 代码 实现 如 下 : 





1 Vvoid Linker::relocate 


() 

2 

3 for(int i=0;i<elfs.size();++i) 

4 vector<RelItem*>tab=elfs[i]->relTab; 

5 for(int j=0;j<tab.size();++]j]) { 

6 // 重 定位 符号 

7 string relName=tab[j]->relName; 

8 Elf32_Sym*sym=elfs[i]->symTab[relName]; 
9 

10 // 重 定位 段 


11 string SegName=tab[j]->segName 


12 Elf32_Shdr*seg=elfs[i]->shdrTab[segName]; 
13 

14 // 重 定位 符号 地 址 

15 unsigned int symAddr 


=sym->st_value; 


16 

17 // 重 定位 位 置 

18 unsigned int offset=tab[j]->rel->r_offset,; 
19 unsigned int relAddr 


=seg->sh_addr+offset,; 


20 
21 // 重 定位 类 型 
22 unsigned char type 


=ELF32_R_TYPE(tab[j]->rel->r_info); 
23 
24 segLists[segName]->relocAddr (relAddr,type, symAddr ); 





1) 函数 relocate 遍 历 所 有 目标 文件 的 重 定位 表 relTab， 取 出 每 个 重 
定位 表 项 进行 处 理 。 





2) 第 6~8 行 取出 重 定位 符号 名 称 relName， 并 根据 符号 表 symTab 得 


到 符号 表 项 sym。 


3) 第 10~12 行 取出 重 定位 段 名 称 segName， 并 根据 段 表 shdrTab 得 到 
段 表 项 seg。 


4) 第 14~15 行 从 符号 表 项 内 读 取 符 写 的 线性 地 址 symAddr。 





5) 第 17~19 行 从 重 定 位 表 项 取出 重 定位 位 置 的 段 内 偏 移 ， 并 根据 重 
定位 段 的 基 址 计算 重 定位 位 置 的 线性 地 址 。 





6) 第 21~22 行 从 重 定位 表 项 内 取出 重 定位 类 型 type。 


7) 第 24 行 调用 SegList 的 relocAddr 函 数 进行 重 定位 操作 。 





1 void SegList::relocAddr 


( 

2 unsigned int relAddr, 

3 unsigned char type, 

4 unsigned int symAddr) { 

5 

6 / /查找 修正 地 址 所 在 位 置 

7 unsigned int reloffset=relAddr-baseAddr; 

8 Block*block=NULL; 

9 for(int i=0;i<blocks.size();++i) 

10 

11 unsigned int start=blocks[i]->offset; 
12 unsigned int end=start+blocks[i]->size; 
13 if(start <= reloffset && reloffset < end) { 
14 block=blocks[i]; 

15 break; 

16 } 

17 } 

18 


19 // 地 址 修正 


20 int *pAddr=(int*)(block->data+reloffset-block->offset); 


21 if(type==R_386_32) { // 绝 对 地 址 修正 
22 *pAddr=symAddr; 

23 } 

24 else if(type==R 386_PC32) { // 相 对 地 址 修正 
25 *pAddr=symAddr -relAddr+*pAddr; 

26 } 

27 } 








1) 函数 relocAddr 执 行 重 定位 操作 ， 即 根据 重 定位 项 描述 的 信息 修 


正 段 内 二 进 制 数据 。 





2) 第 6~17 行 查询 重 定位 位 置 的 地 址 所 在 的 数据 块 Block。 





3) 第 7 行 计 算出 重 定位 位 置 相 对 于 合并 后 段 基 址 的 偏 移 relOffset。 


4) 第 11~12 行 计算 每 个 Block 数 据 块 的 起 始 地 址 start 和 结束 地 址 
end， 通 过 比较 relOffset 是 否 落 在 [start，end) 地 址 区 间 内 以 查询 重 定位 
位 置 所 在 的 数据 块 。 查 询 得 到 的 数据 块 记录 到 block 变 量 中 。 由 于 重 定 
位 表 项 由 汇编 器 生成 ， 因 此 必然 存在 一 个 数据 块 满足 查询 条 件 ， 即 
block 不 会 为 NULL。 





5) 第 19~26 行 进行 重 定位 操作 。 由 于 block 的 offset 字 段 记 录 了 block 
相对 于 合并 后 段 基 址 的 偏 移 ，relOffset 记 录 了 重 定位 位 置 相对 于 合并 后 
段 基 址 的 偏 移 ， 因 此 两 者 之 差 便 是 重 定位 位 置 相 对 于 重 定位 数据 块 起 始 
地 址 的 偏 移 。 根 据 block 保 存 的 数据 块 的 缓冲 区 地 址 data 和 该 偏 移 可 以 得 
到 重 定 位 位 置 在 绥 冲 区 内 的 地 址 ， 将 该 地 址 记录 到 int 指 针 pAddr。 

















6) 第 21~23 行 进行 绝对 地 址 修正 。 即 将 符号 地 址 symAddr 写 入 
pAddr 指 同 的 内 存 区 域 。 通 过 这 样 的 方式 “恰好 ”将 pAddr 指 同 的 数据 按照 
小 字 节 序 修改 为 symAddr 的 值 。 


7) 第 24~26 行 进行 相对 地 址 修正 。 即 将 符号 地 址 symAddr 减 去 重 定 
位 位 置 的 地 址 relAddr， 然 后 累加 pAddr 指 向 的 数据 区 域 原 本 保存 的 值 〈- 








4) ， 得 到 最 终 的 相对 地 址 ， 并 将 其 写 回 到 pAddr 指 向 的 数据 区 域 。 


重 定位 操作 结束 后 ， 链 接 器 的 核心 工作 已 全 部 完成 。 


7.5 ”程序 入 口 点 与 运行 时 库 


在 7.3.1 节 曾 提 到 程序 入 口 点 地 址 被 保存 在 一 个 名 为 “@start” 的 特殊 
内 ， 而 定义 该 符号 的 目标 文件 并 不 是 编译 占 根 据 源 代码 生成 的 。 那 


夺 号 
么 这 束 有 两 个 问题 需要 弄 清 楚 : 








1) 为 什么 引入 新 的 符号 而 不 是 main 函 数 作 为 程序 入 口 点 ? 


2) 定义 新 的 符号 的 目标 文件 该 如 何 得 到 ? 


首先 解释 第 一 个 问题 。 根 据 第 3 章 代码 生成 的 逻辑 ， 对 于 main 函 数 
生成 的 汇编 代码 片段 形式 如 下 : 





1 global main 
2 main: 


push ebp 
mov ebp, esp 
sub esp, ? 


mov esp,ebp 
pop ebp 
ret 


‘OONOROW 





本 质 上 讲 ，main 函 数 与 普通 的 函数 并 没有 太 大 的 区 别 : 包含 函数 入 
栈 代码 《第 3~5 行 ) 、 函 数 体 代 码 〈 第 6 行 省 略 内 容 ) 和 函数 出 栈 代码 
(第 7~9 行 )。 假 定 使 用 main 函 数 作 为 程序 入 口 点 ， 即 将 main 符 号 的 线 
性 地 址 写 入 ELF 文 件 头 部 的 e_entry 字 段 ， 那 么 程序 加 载运 行 后 会 从 main 





符号 的 地 址 位 置 读 取 指 令 开始 执行 。 整 个 main 函 数 执行 过 程 不 会 出 现任 
何 问题 ， 直 到 ret 指 令 执行 结束 后 。 根 据 ret 指 令 的 语义 ， 程 序 会 从 栈 顶 取 
出 32 位 的 数据 作为 返回 地 址 ， 然 后 跳 转 到 该 地 址 继续 执行 ! 然而 ， 程 

序 执行 main 函数 之 前 ， 栈 顶 保 存 的 数据 是 未 知 的 ， 因 此 导致 程序 的 最 终 
行为 无 法 预测 ， 最 第 见 后 果 是 触及 进程 “Segment Fault”。 








因此 ， 为 了 让 程序 可 以 “优雅 ”地 退出 ， 必 须 构 造 一 个 main 函 数 的 调 
用 者 完成 函数 调用 后 的 “清理 ”工作 。 这 也 为 第 二 个 问题 提供 了 解决 办 


1 global @start 


2 Q@start: 

3 Re 

4 call main 
5 Pe 

6 mov eax, 1 
7 mov ebx, 0 
8 int 128 


在 Linux 的 系统 调用 中 ， 调 用 号 为 1 的 系统 调用 是 exit， 使 用 exit 可 以 
使 进程 正常 退出 。 调 用 exit 的 汇编 代码 如 第 6~8 行 所 示 ， 其 中 寄存 器 eax 
保存 exit 系 统 调用 号 1，ebx 保 存 exit 系 统 调用 的 参数 0，int 指 令 触及 exit 系 
统 调用 退出 进程 。 


符号 “@start* 处 的 代码 会 调用 main 函 数 后 使 用 exit 系 统 调 用 退出 进 
程 ， 在 调用 main 函 数 前 后 可 以 执行 一 些 初始 化 工作 (第 3 行 省 略 内 容 ) 
和 清理 工作 《第 5 行 省 略 的 内 容 ) 。 由 于 我 们 设计 的 编译 器 main 函 数 的 


定义 很 简单 ， 因 此 并 不 需要 初始 化 和 清理 的 操作 。 


将 上 述 代 码 保存 在 starts， 并 使 用 我 们 实现 的 汇编 器 处 理 后 ， 可 以 
得 到 目标 文件 start.o。 然 后 ， 使 用 readelf 工 具 查 看 start.o 的 符号 表 。 





Symbol table '.symtab' contains 3 entries: 
: 


m: Value Size Type Bind Vis Ndx Name 
0 1: 00000000 © NOTYPE LOCAL DEFAULT UND 
1: 00000000 © NOTYPE GLOBAL DEFAULT 1 @start 
2,: 00000000 © NOTYPE GLOBAL DEFAULT UND mair 





可 以 发 现 目标 文件 start.o 包 含 一 个 导出 符号 “@start”*”， 一 个 导入 符 
号 “main”。 将 starto 和 汇编 器 生成 的 目标 文件 一 起 交 给 链接 器 处 理 ， 如 
果 其 他 目标 文件 没有 定义 main 函 数 ， 则 会 触 肥 “main 符号 未 定义 ”链接 错 
误 。 人 至 于 链接 器 生成 的 可 执行 文件 的 程序 入 口 点 ， 自 然 是 设置 为 符 
写 “@start” 的 线性 地 址 即 可 。 








如 图 7-6 所 示 ， 从 整个 编译 系统 的 工作 流程 来 看 ，start.o 文 件 是 编译 
系统 正常 工作 必需 的 目标 文件 。 无 论 编译 系统 处 理 的 源 代码 如 何 定义 ， 
在 最 终 的 链接 阶段 必须 将 start.o 和 其 他 目标 文件 一 起 链接 才能 正常 生成 
可 执行 文件 。 对 于 这 样 的 目标 文件 ， 有 一 个 统一 的 名 称 
时 库 ?。 显 然 ，start.o 应 该 是 最 简单 的 运行 时 库 了 ， 它 只 负责 引导 调用 
main 函 数 ， 别 的 什么 也 没 做 。 





“语言 运行 


图 7-6 ”编译 系统 工作 流程 





根据 类 似 的 方式 ， 可 以 很 方便 地 扩展 程序 设计 语言 运行 时 库 的 功 

。 比 如 可 以 定义 printf.s 实 现 标准 输出 函数 printf， 经 过 汇编 器 处 理 后 生 
成 printf.o 目 标 文 件 。 只 需要 源码 声明 使 用 了 printf 函 数 ， 在 链接 时 将 
printf.o 链 接 到 可 执行 文件 ， 即 可 在 高 级 语言 中 实现 标准 输出 的 功能 。 更 
进一步 地 ， 可 以 直接 定义 math.c 文 件 实现 数学 相关 的 函数 ， 经 过 编译 露 
和 汇编 右 处 理 后 生成 math.o 目 标 文 件 ， 这 样 高 级 语言 就 可 以 进行 复杂 的 
数学 计算 。 


如 采 在 编译 系统 中 实现 了 预 处 理 器 并 文 持 include 指 令 ， 那 么 像 printf 
函数 或 math.c 实 现 的 函数 声明 语句 就 可 以 放 入 类 似 “stdio.h” 或 “math.h” 这 
样 的 头 文件 内 。 如 有 果 链 接 堪 文 持 输入 压缩 包 格 式 的 文件 ， 那 么 像 printf.o 
和 math.o 这 样 的 目标 文件 可 以 打包 放 在 类 似 “libc.a” 这 样 的 压 缠 包 中 ， 链 
接 堪 只 需要 在 链接 之 前 将 压 纵 包 解 压 即 可 。 编 写 高 级 语言 程序 时 ， 只 要 
含 需要 的 头 文 件 ， 并 在 链接 阶段 包含 对 应 的 库 文 件 ， 就 可 以 使 用 更 强 
大 的 语言 特性 。 不 知 不 觉 ， 我 们 发 现 这 样 的 实现 方式 已 经 与 GCC 非常 接 
本 

















相 比 而 言 ，GCC 的 C 语 言 运行 时 库 〈C Runtime Library，CRT) 复 
杂 得 多 。 回 顾 第 1 章 描 述 GCC 静 态 链 接 工作 流程 时 涉及 的 5 个 目标 文件 
crt1.0、crti.o、crtbeginT.o、crtend.o、crtn.o， 以 及 3 个 静态 库 libgcc.a、 


libgcc_eh.a、libc.a， 这 些 文件 的 功能 分 别 为 : 


1) crt1.0: 定义 程序 入 口 点 “_start*、 调 用 “init* 段 的 代码 执行 程序 
的 初始 化 、 调 用 main 函 数 、 调 用 “.finit* 段 的 代码 执行 程序 的 清理 操作 。 
早期 版 本 为 crt0.o0， 不 支持 “.init* 和 “.finit”*” 段 。 


2) crti.o: 定义 “.init* 段 的 函数 入 栈 代 码 、 调 用 C++ 全 局 构造 代码 。 


3) crtn.o: 定义 “.finit* 段 的 函数 出 栈 代 码 、 调 用 C++ 全 局 析 构 代 
码 。 


4) crtbeginT.o: 定义 C++ 全 局 构造 代码 。 

5) crtend.0: 定义 C++ 全 局 析 构 代码 。 

6) libc.a: 定义 C 语 言 标准 库 代 码 。 

7) libgcc.a: 定义 由 于 平台 差异 性 的 辅助 函数 代码 。 
8) libgcc_eh.a: 定义 C++ 异常 处 理 的 平台 相关 代码 。 


由 此 可 见 ， 对 于 一 种 高 级 语言 ， 除 了 编译 器 、 汇 编 堪 和 链接 需 古 必 
不 可 少 的 部 分 之 外 ， 语 言 的 运行 时 库 也 是 不 可 或 缺 的 一 部 分 。 昌 然 我 们 





实现 的 编译 系统 骨 在 弄 清高 级 语言 实现 的 细节 ， 但 是 绝 不 能 忽略 语言 运 
行 时 库 的 地 位 。 功 能 丰富 的 运行 时 库 ， 可 以 让 高 级 语言 的 表达 能 力 更 加 
强大 。 





7.6 ”可 执行 文件 生成 


链接 器 的 最 终 输 出 是 ELEF 格 式 的 可 执行 文件 。 第 5 章 描 述 了 ELF 文 件 
的 通用 结构 ， 而 在 链接 器 生成 可 执行 文件 时 ， 只 关心 可 执行 文件 的 ELF 
文件 结构 。 





文件 头 (ELF Header ) S7 


程序 头 表 ( Program Header Table ) (32* 程 厅 头 表 项 个 数 ) 
代码 投 (Ce 


数据 自 (>qatal 


段 表 字符 串 表 ( . shstrtab ) 
段 表 (Section Header Table) (40* 段 表 项 个 数 ) 


符号 表 ( . symtab ) (16* 行 号 表 项 个 数 ) 


字符 串 表 ( . strtab ) 





图 7-7 ELF 可 执行 文件 


如 图 7-7 所 示 ， 在 静态 链接 器 生成 的 可 执行 文件 中 ， 不 会 包含 重 定 
位 表 。 程 序 头 表 是 ELF 可 执行 文件 独 有 的 结构 ， 记 录 需 要 加 载 到 进程 地 
址 空间 的 段 。 代 码 段 来 源 于 所 有 的 目标 文件 的 代码 段 拼接 重 定位 后 的 数 
据 块 ， 数 据 段 来 源 于 所 有 的 目标 文件 的 数据 段 拼 接 重 定位 后 的 数据 块 。 








符号 表 段 来 源 于 所 有 目标 文件 定义 的 全 局 符号 ， 其 中 符号 表 项 的 
st_shndx 字 段 需要 根据 最 终生 成 的 段 表 结 构 更 新 。 另 外 ，ELEF 文 件 头 、 
段 表 、 段 表 字 符 串 表 、 字 符 串 表 在 ELF 文 件 结构 确定 后 可 以 计算 得 出 。 


与 汇编 器 的 目标 文件 生成 的 流程 相似 ， 可 执行 文件 的 生成 也 可 以 分 
为 两 个 阶段 。 


1) ELF 文 件 结构 组 装 。 根 据 链 接 絮 的 处 理 得 到 ELF 可 执行 文件 的 信 
恩 ， 生 成 ELF 文 件 结构 。 包 括 文件 头 各 个 字段 的 值 、 串 表 的 内 容 以 及 引 
用 串 表 内 的 字符 串 佣 移 信息 〈 如 段 表 项 的 段 名 字段 sh_name、 符 号 表 项 


的 符号 名 字段 st_name) 、 符 号 表 项 的 st_shndx 字 段 等 。 


2) ELF 文 件 结构 输出 。 输 出 文件 头 、 程 序 头 表 、 代 码 段 、 数 据 
段 、 段 表 字 符 串 表 、 段 表 、 符 号 表 、 字 符 串 表 的 内 容 。 任 何 两 个 文件 结 
构 轩 因为 对 齐 需要 产生 了 空 除 ， 则 使 用 0 填充 补 齐 。 








首先 看 ELF 可 执行 文件 结构 的 组 站。 





1 void Elf_file::assemOb]j 


(Linker* linker) { 
2 /V 所 有 段 名 


vector<string> AllSegNames,; 

AllSegNames.push_back(""); 

vector<string> segNames = linker->segNames,; 

for (int i=0;i<segNames.size();++i) 
AllSegNames.push_back(segNames[i]); 


} 

AllSegNames.push_back(".shstrtab"); 

AllSegNames.push_back(".symtab"); 
AllSegNames.push_back(".strtab"); 


PPOONOPOW 


PO 


hash_map<string,int,string_hash> ShIndex 
/ / 段 名 索引 


hash_map<string,int,string_hash> shstrIindex; 
/ /建立 索引 


for (int i=0;i<AllSegNames.size();++i){ 
string name = AllSegNames[i]; 
shIndex[name] = i; 
shstrIndex[name] = shstrtab.size(); 
shstrtab += name; 


shstrtab.push_back('\0'); 


// 生 成 符号 表 





addSym("" ,NULL ) ; 

Vector<SymLink*>symDef = linker->symDef; 

for (int i=0;i<symDef.size();++i){ 
string name = symDef[i]->name; 
Elf_file* prov = symDef[i]->prov; 
Elf32_Sym*sym = prov->symTab[name]; 


String segName = prov->shdrNames[sym->st_shndx]; 


sym->st_shndx = shIndex[segName]; 
addSym(name, sym); 


/ /符号 索引 


hash_map<string,int,string_hash> SymIndex 
/ /符号 名 索引 


hash_map<string,int,string_hash> strIindex; 
/ /建立 索引 


for (int i=0;i<symNames.size();++i){ 
string name = symNames[i]; 
symIndex[name] = i; 
strIindex[name] = strtab.sizel(); 
strtab += name; 


strtab.push_back('\0'); 


51 


58 





for (int i=0;i<symNames.size();++i){ 
string name = symNames[i]; 
symTab[name]->st_name=strIindex[name]; 


/ / 处 理 文件 头 


char magic[] = { / 


QOx71, Ox45, Ox4c, QOx46, 
Ox01, Ox01, Ox01, Ox00, 
Ox00, Ox00, Ox00, Ox00, 
Ox00, Ox00, Ox00, OxQ00 


}; 


memcpy(&ehdr.e_ident, magic, sizeof(magic)); 
ehdr.e_type=ET_EXEC; 
ehdr.e_machine=EM_386; 
ehdr.e_version=EV_CURRENT; 
ehdr.e_entry=symTab[START]->st_name; 
ehdr.e_phoff=0; 

ehdr.e_shoff=0; 

ehdr.e_flags=0; 
ehdr.e_ehsize=sizeof(Elf32_ Ehdr); 
ehdr.e_phentsize=sizeof(El1f32_Phdr); 
ehdr.e_phnum=segNames.size(); 
ehdr.e_shentsize=sizeof(El1f32_ Shdr); 
ehdr.e_shnum=AllSegNames.size( ); 
ehdr.e_shstrndx=shIndex[".shstrtab"]; 


int curoff = sizeof(ehdr); / /文件 头 


ehdr.e_phoff = curoff; //F 


// 生 成 程序 头 表 ， 已 对齐 





for(int i=0;i<segNames.size();++1i){ 

string name=segNames[i]; 

Elf32_ Word flags=PF_W|PF_R; 

if(name==". text")flags=PF_X|PF_R; 

addPhdr (PT_LOAD, segLists[name]->offset, 
segLists[name]->baseAddr, 
segLists[name]->size,segLists[name|]->size, 
flags,MEM_ALIGN); 


curoff += e_phentsize*e_phnum; 


// 生 成 已 有 段 表 





97 


121 


123 


124 
125 
126 
127 
128 


129 
130 
131 
132 
133 


134 
135 


addshdr("",0,0,0,0,0,0,0,0,0); 


for(int i=0;i<segNames.size();++i){ 
string name=segNames[i]; 
Elf32_Word sh_flags=SHF_ALLOC|SHF_WRITE; 
Elf32_Word sh_align=DISC_ALIGN; 
if(name==".text"){ 
sh_flags=SHF_ALLOC|SHF_EXECINSTR; 
sh_align=TEXT_ALIGN; 


} 
addShdr (name, SHT_PROGBITS, sh_flags, 
segLists[name]->baseAddr, 
segLists[name]->offset, 
segLists[name]->size, 
0,0,sh_align,o); 
curOff=segLists[name]->offset + 
segLists[name|]->size; 


} 
curOff += (4-curOff%4)%4; 


/ /添加 新 的 段 表 项 


addSshdr(".shstrtab",SHT_STRTAB, 0,09,curoff, 
shstrtab.size(),SHN_UNDEF, 0,1.,0); 

curoff += shstrtab.size(); 

curOff += (4-curOff%4)%4; 


ehdr.e_shoff = CuroOff， 


curoff += ehdr.e_shnum*ehdr.e_shentsize; 


addSshdr(".symtab",SHT_SYMTAB, 0,0,curoff, 
symNames .size()*sizeof(Elf32_Sym), 
shIindex[".strtab"],90,1,sizeof(Elf32_Sym)); 

curoff += symNames.size()*sizeof(El1f32_Sym); 


addSshdr(".strtab",SHT_STRTAB, 0,0,curoff, 
strtab.size(),SHN_UNDEF, 0,1,0); 

curoff += strtab.size(); 

curOff += (4-curOff%4)%4; 





/ /更 新 段 表 段 名 索引 


// 空 段 表 项 


/ /对 齐 
/ /对 齐 
// 段 表 偏 移 
// 段 表 ， 已 对 齐 
/ /已 对 齐 
/ /对 齐 


136 for (int i=0;i<AllSegNames.size();++i){ 

137 string name = AllSegNames[i]; 

138 shdrTab[name]->sh_name=shstrIindex[name]; 
139 } 

140 } 





1) 第 2~11 行 ， 我 们 使 用 AllSegNames 记 录 所 有 的 段 名 ， 包 括 空 段 、 
segNames 记 录 的 段 (需要 加 载 的 代码 段 “.text” 和 数据 段 “.data”) ， 以 及 
ELF 文 件 内 部 使 用 的 段 :“.shstrtab”.symtab”“.strtab”。 


2) 第 13~24 行 建立 段 索 引 shIndex 和 上 段 名 索引 shstrIndex。shIndex 记 
录 了 每 个 段 表 项 在 AllSegNames 的 索引 位 置 ， 段 表 会 根据 AllSegNames 记 
录 的 段 名 顺序 生成 各 个 段 表 项 。shstrIndex 记 录 了 每 个 段 名 在 段 表 字 符 串 
表 “.shstrtab” 内 的 位 置 ， 我 们 按 AllSegNames 的 顺序 拼接 所 有 的 段 名 形成 
段 表 字符 串 表 ， 拼 接 时 注意 使 用 ^0; 分 割 不 同 的 段 名 。 





3) 第 26~36 行 根据 所 有 导出 符号 集合 symDef 生 成 符号 表 (首先 添 
加 空 符号 表 项 ) 。 通 过 每 个 SymLink 的 prov 字 段 得 到 定义 导出 符号 的 
ELF 文 件 ， 取 出 对 应 的 符号 表 项 。 并 根据 符号 表 项 内 的 st_shndx 字 段 取 
出 符号 在 目标 文件 内 所 在 的 段 名 。 最 后 根据 获取 该 段 名 对 应 的 段 表 项 在 
可 执行 文件 段 表 内 的 索引 ， 更 新 符号 对 象 的 st_shndx 字 段 。 











4) 第 38~49 行 建立 符号 索引 symIndex 和 符号 名 索引 strIndex。 
symIndex 记 录 了 每 个 符号 表 项 〈 包 括 初始 化 时 添加 的 空 符号 表 项 ) 在 符 
号 名 列表 symNames 的 索引 位 置 ， 符 号 表 会 根据 symNames 记 录 的 符号 名 
顺序 生成 各 个 符号 表 项 。striIndex 记 录 了 每 个 符号 名 在 字符 串 


表 “.strtab” 内 的 位 置 ， 我 们 按 symNames 的 顺序 拼接 所 有 的 符号 名 形成 字 
符 串 表 ， 拼 接 时 注意 使 用 ^\0’ 分 割 不 同 的 符号 名 。 





5) 第 51~55 行 扫描 符号 表 strTab， 然 后 将 每 个 符号 表 项 的 st_name 字 
段 设 为 符号 名 在 字符 串 表 内 的 索引 ， 完 成 符号 表 信 息 的 补充 。 





6) 第 57~78 行 处 理 ELF 文 件 头 ， 按 照 第 5 章 描述 的 ELF 文 件 头 的 内 容 
设置 对 应 字段 。 其 中 ，e_type 设 置 为 ET_EXEC 表 示 文 件 类 型 是 可 执行 文 
件 ，e_entry 设 置 为 符号 START 的 线性 地 址 表示 程序 入 口 地 址 ，e_ehsize 
设置 为 sizeof (Elf32_Ehdr) 表示 文件 头 大 小 ，e_shentsize 设 置 为 
sizeof (Elf32_Shdr〉 表示 段 表 项 的 大 小 ，e_phentsize 设 置 为 
sizeof (Elf32_ Phdr) 表示 程序 头 表 项 的 大 小 ，e_shnum 设 置 为 
AllSegNames 的 大 小 表示 段 表 项 个 数 ，e_phnum 设 置 为 segNames 的 大 小 
表示 程序 头 表 项 的 个 数 ，e_shstrndx 设 置 为 “.shstrtab” 的 段 索 引 。 另 外 ， 
e_shoff 和 e_phoff 和 暂时 初始 化 为 0， 因 为 还 未 确定 段 表 和 程序 头 表 的 文件 
偏 移 。 





7) 第 80~82 行 将 curOff 初 始 化 为 ELF 文 件 头 的 大 小 ， 并 将 e_phoff 设 
为 curOff， 即 程序 头 表 起 始 位 置 。 


8) 第 84~94 行 生成 程序 头 表 。 通 过 过 有 历 segNames 获 取 需 要 加 载 的 段 
名 ， 并 从 segLists 取 出 合并 的 段 列 表 。 对 于 代码 段 “.text”， 程 序 头 表 项 的 
P_flags 字 段 设 为 PF_XIPF_R， 即 可 读 可 执行 。 对 于 其 他 段 默认 设置 为 








PF_WI|PF_R， 即 可 读 可 写 。 程 序 头 表 项 的 p_offset、p_vaddr、 和 
pP_memsz 字 段 可 以 从 SegList 对 应 字段 取出 。 另 外 p_type 字 段 设 为 
PT_LOAD 表 示 段 需要 加 载 ，p_align 字 段 设 为 MEM_ALIGN 表 示 被 加 载 
段 在 内 存 中 以 4KB 对 齐 。 最 后 ， 将 curOff 与 程序 头 表 的 大 小 累加 (程序 
头 表 大 小 = 程序 头 表 项 个 数 x 程 序 头 表 项 大 小 ) 。 


9) 第 96~114 行 生成 衬 段 表 项 和 可 加 载 的 段 表 项 。 通 过 过 历 
segNames 获 取 需 要 加 载 的 段 名 ， 并 从 segLists 取 出 合并 的 段 列 表 。 对 于 
代码 段 ".text”， 段 表 项 的 sh_flags 字 段 设 为 
SHF_ALLOCISHF_EXECINSTR， 表 示 可 分 配 可 执行 ，sh_align 字 段 设 为 
TEXT_ALIGN， 表 示 段 按照 16 字 节 对 齐 。 对 于 其 他 段 ， 段 表 项 的 
sh_flags 字 段 设 为 SHF_ALLOCISHF_ WRITE， 表示 可 分 配 可 读 写 ， 
sh_align 字 段 设 为 DISC_ALIGN， 表 示 段 按照 4 字 节 对 齐 。 段 表 项 的 
sh_offset、sh_addr、 和 sh_size 字 段 可 以 从 SegList 对 应 字段 取出 。 另 外 
sh_type 字 段 设置 为 SHT_PROGBITS， 表 示 段 内 数据 是 程序 数据 。 最 
后 ， 将 curOff 按 4 字 节 对 齐 。 

















10) 第 116~120 行 添加 “.shstrtab” 的 段 表 项 到 段 表 shdrTab。 其 中 比较 
关键 的 字段 有 段 名 “.shstrtab”、 段 类 型 SHT_STRTAB、 段 文件 偏 移 
curOff、 段 大 小 shstrtab.size 〈) 、 对 齐 大 小 1《〈 即 该 段 的 文件 偏 移 不 进行 
对 齐 ) 等 。 然 后 将 当前 段 大 小 与 curOff 累 加 、 对 齐 〈 后 续 文 件 结构 要 求 
的 对 齐 方式 ) ， 继 续 处 理 下 一 个 文件 结构 。 








11) 第 122~123 行 处 理 段 表 的 信息 。 首 先 将 文件 头 的 e_shoff 设 为 
curOff， 即 段 表 的 偏 移 。 然 后 将 段 表 的 大 小 与 curOff 累 加 (上 段 表 的 大 小 = 
段 表 项 个 数 x 段 表 项 大 小 ) 。 





12) 第 125~128 行 添加 “.symtab” 的 段 表 项 到 段 表 shdrTab。 其 中 比较 
关键 的 字段 有 段 名 “.symtab”、 段 类 型 SHT_SYMTAB、 段 文件 偏 移 
curOff、 段 大 小 《符号 表 项 个 数 x 符 号 表 项 大 小 ) 、sh_link 记 录 符 号 表 使 
用 的 串 表 “.strtab” 的 段 索 引 、sh_info 记 录 第 一 个 全 局 符号 的 符号 索引 

《由 于 我 们 没有 在 符号 表 内 区 分 全 局 符号 的 区 域 ， 因 此 设 为 0， 这 样 链 
接 器 会 扫描 所 有 的 符号 ， 根 据 符号 的 全 局 属性 进行 符号 解析 ) 、 对 齐 大 
小 1《 即 该 段 的 文件 偏 移 不 进行 对 齐 ) 、 符 号 表 项 大 小 

sizeof (Elf32_Sym) 等 。 然 后 将 当前 段 大 小 与 curOff 累 加 ， 继 续 处 理 下 
一 个 文件 结构 。 














13) 第 130~133 行 添加 “.strtab” 的 段 表 项 到 段 表 shdrTab。 其 中 比较 天 
键 的 字段 有 段 名 *.strtab”、 段 类 型 SHT_STRTAB、 段 文件 偏 移 curOff、 
段 大 小 strtab.size () 、 对 齐 大 小 1 〈 即 该 段 的 文件 偏 移 不 进行 对 齐 ) 

等 。 然 后 将 当前 段 大 小 与 curOff 累 加 、 对 齐 (后续 文件 结构 要 求 的 对 齐 
方式 ) ， 继 续 处 理 下 一 个 文件 结构 。 


14) 第 135~139 行 扫描 段 表 shdrTab， 然 后 将 每 个 段 表 项 的 sh_name 
字段 设 为 段 名 在 段 表 字符 串 表 内 的 索引 ， 完 成 段 表 信息 的 补充 。 
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到 这 里 ， 已 经 完成 了 ELF 可 执行 文件 信息 的 组 装 。 


最 后 ， 便 是 ELF 可 执行 文件 结构 的 输出 。 





void Elf_file: :writeElf 


Linker* linker)f{ 


int padNum = 0; 
char pad[1]={0}; 


// 文 件 头 


fwrite(&ehdr,ehdr.e_ehsize,1,fout); 


/ /程序 头 表 


for(int i=0;i<phdrTab.size();++i){ 
fwrite(phdrTab[i],ehdr.e phentsize,1,fout); 
} 


//.text .data 

for(int i=0;i<segNames.size();++i) { 
SegList*segs=linker->segLists[segNames[i]]; 
padNum=segs->offset - segs->begin,; 
fwrite(pad,sizeof(pad),padNum, fout); 


Block*last=NULL; 
for(int j=0;j<segs->blocks.size();++j)t{ 
Block*block=segs->blocks[]j]; 
if(last!=NULL){ 
lastEnd = last->offset + last->size,; 
padNum = block->offset - lastEnd; 
fwrite(pad,sizeof(pad),padNum, fout); 


fwrite(block->data,block->size,1,fout); 


} 


//.shstrtab 
padNum = shdrTab[".shstrtab"]->sh_offset 

- shdrTab[".data"]->sh_offset 

- shdrTab[".data"]->sh_size; 
fwrite(pad,sizeof(pad),padNum,fout); 
fwrite(shstrtab.c_str(),shstrtab.size(),1,fout); 


// 段 表 


padNum = ehdr.e_shof 
- shdrTab[".shstrtab"]->sh_offset 
- shdrTab[".shstrtab"]->sh_size; 
fwrite(pad,sizeof(pad),padNum,fout); 
for(int i=0;i<shdrNames.size();++1i){ 


44 Elf32_Shdr*sh=shdrTab[shdrNames[i]]; 


45 fwrite(sh,ehdr.e_shentsize,1,fout); 
46 } 

47 

48 // 符 号 表 


49 for(int i=0;i<symNames.size();++i){ 
与 


0 Elf32_Sym*sym=symTab[symNames[i]]; 

51 fwrite(sym,sizeof(El1f32_Sym),1,fout); 
52 } 

53 


54 //.strtab 
55 fwrite(strtab.c_str(),strtab.size(),1,Tfout); 
56 } 





1) 首先 输出 ELF 文 件 头 ehdr， 调 用 fwrite 将 该 结构 输出 到 文件 即 


2) 第 8~11 行 输出 程序 头 表 。 


3) 第 13~29 行 输出 可 加 载 段 ， 即 代码 段 和 数据 段 的 二 进 制 内 容 。 通 
过 遍历 所 有 的 可 加 载 段 名 ， 从 segLists 中 获取 合并 后 段 列 表 segs。 对 每 一 
个 segs， 计 算 offset 字 段 和 begin 字 段 的 差 值 ， 使 用 0 填充 段 列 表 对 齐 产生 
的 缝隙。 对 每 个 段 列 表 segs， 通 过 遍历 段 列表 内 的 每 个 数据 块 block， 计 
算 当 前 数据 块 起 始 位 置 与 上 一 个 数据 块 last 结 束 位 置 的 差 值 ， 即 数据 块 
因为 对 齐 产生 的 缝 除 ， 并 使 用 0 填充 ， 最 后 输出 每 个 数据 块 的 内 容 。 





4) 第 31~36 行 输出 “.shstrtab” 段 。 首 先 使 用 0 填充 “.shstrtab” 段 
和 “.data” 段 因为 对 齐 产 生 的 间 际 。 然 后 输出 shstrtab 保 存 的 段 名 字符 串 内 


i 


容 。 


5) 第 38~46 行 输出 段 表 。 首 先 使 用 0 填充 段 表 和 “.shstrtab” 段 因为 对 


齐 产 生 的 间 隐 。 然 后 按照 shdrNames 保 存 的 段 名 顺序 输出 shdrTab 保 存 的 
段 表 项 内 容 。 


6) 第 48~52 行 输出 “.symtab” 段 。 只 需 按照 swmNames 保 存 的 符号 名 
顺序 输出 symTab 保 存 的 符号 表 项 内 容 即 可 。 


7) 第 54~56 行 输出 “.strtab” 段 。 只 需 输出 strtab 保 存 的 符号 名 字符 串 
内 容 即 可 。 


至 此 ， 我 们 将 可 执行 文件 的 内 容 输 出 完毕 ， 完 成 了 链接 器 的 最 后 一 
步 操 作 。 使 用 readelf 命 令 ， 可 以 查看 验证 我 们 输出 的 可 执行 结构 的 正确 
es 


最 后 ， 激 动人 心 的 时 刻 终于 到 来 了 ! 使 用 chmod+x 命 令 为 链接 器 输 
出 的 ELF 文 件 添加 可 执行 文件 权限 ， 并 在 shell 内 执行 ， 就 可 以 看 到 我 们 
用 自 定义 语言 编写 的 代码 的 执行 效果 了 。 


7.7 ”本章 小 结 


本 章 我 们 根据 已 设计 的 链接 器 结构 ， 分 别 从 信息 收集 、 地 址 空间 分 
配 、 符 号 解析 、 重 定位 、 可 执行 文件 生成 的 角度 描述 了 一 个 简单 的 静态 
链接 局 的 实现 。 另 外 ， 在 处 理 程序 入 口 点 的 问题 时 ， 我 们 还 讨论 了 高 级 
语言 运行 时 库 对 语言 的 重要 意义 。 








从 实现 角度 来 看 ， 链 接 器 并 不 像 编 译 占 和 汇编 右 那 样 的 语言 翻译 程 
序 ， 而 更 像 ELF 文 件 的 处 理 程序 。 如 果 说 编译 器 做 的 事情 是 文本 到 文本 
的 转换 ， 那 么 汇编 器 则 是 文本 到 二 进 制 的 转换 ， 而 对 于 链接 器 则 是 二 进 
制 到 二 进 制 的 转换 。 从 编译 器 开始 起 步 ， 到 汇编 器 的 中 间 过 渡 ， 最 后 到 
链接 旧 的 合并 收尾 ， 整 个 编译 系统 的 工作 流程 是 一 个 不 可 分 割 的 整体 。 
每 一 个 流程 都 会 对 后 续 的 操作 产生 影响 ， 每 一 个 结果 生成 的 细 市 也 会 肥 
作用 于 最 初 的 设计 。 





回顾 整个 编译 系统 实现 的 细节 ， 我 们 发 现 除 了 横 问 讨论 的 编译 系统 
实现 的 每 一 个 流程 之 外 ， 还 有 很 多 纵 问 的 信息 值得 深思 。 比 如 处 理 文法 
的 自动 机 和 文法 理论 、 各 种 各 样 的 数据 结构 和 算法 、 指 令 系统 的 设计 、 
可 执行 文件 结构 等 ， 都 是 计算 机 学 科 的 热点 话题 。 笔 者 希望 通过 描述 一 
个 相对 完整 的 编译 系统 实现 ， 帮 助 读 者 更 好 地 理解 计算 机 软件 的 工作 原 
理 ， 基 于 此 反思 计算 机 学 科 每 个 知识 领域 的 现实 意义 。 
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